06.14 牆外|谷歌模擬“雞尾酒會效應”:構建模型實現人聲分離

近日,搜索巨頭谷歌的軟件工程師Inbar Mosseri和Oran以及其他幾位作者共同發表了一篇關於音頻-視覺語音識別系統的最新研究成果《Looking to Listen at the Cocktail Party:ASpeaker-Independent Audio-Visual model for SpeechSeparation 》,其中提到的新技術——音頻-視覺語音模型,成功攻破了原本人類才有的能力——“雞尾酒會效應”。

牆外|谷歌模擬“雞尾酒會效應”:構建模型實現人聲分離

音頻-視覺語音分離模型,

“雞尾酒會效應”實現

“雞尾酒會效應”:即在嘈雜的環境中,人們善於將注意力集中在某一個人的談話之中而忽略其他無關聲音的聽力選擇能力,並且這種能力是我們與生俱來的。 然而,雖然關於自動語音分離 (將音頻信號分離成單獨的語音源 )的研究已經非常深入,但該技術仍是計算機領域面臨的重大挑戰。

牆外|谷歌模擬“雞尾酒會效應”:構建模型實現人聲分離

在《Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation》一文中,谷歌的工程師們向我們展示了音頻-視覺語音模型,用於從混合聲音(如其他聲音和背景噪音)中分離出單個語音信號。所謂的音頻-視覺語音分離模型,簡單來講,就是加強選中人的音量,同時減弱同一時間其他人的音量。這種方法的獨特之處在於它將輸入視頻的聽覺和視覺信號相結合從而達到分離語音的目的。 他們表示該方法適用於帶有單個音頻軌道的普通視頻。作為普通用戶,我們只需要選擇視頻中想要聽到的人物的臉部就能得到單一音軌。

牆外|谷歌模擬“雞尾酒會效應”:構建模型實現人聲分離

(多人講話視頻分解為單獨的語音軌道圖解)

音頻-視覺語音分離的應用

這一技術不僅攻破了“雞尾酒會”這一難題,也為語音識別領域的許多問題提供了新的思考方向。比如,將它作為預處理應用到語音識別中,以及自動給視頻添加文字說明,並且利用該方法將音頻分離為不同的來源可以幫助生成更加準確和易讀的字幕(目前 YouTube 的自動字幕,如果視頻中有多種聲音混合,字幕就很難準確顯示)。

谷歌工程師們也表示:"我們相信這種方法可以在眾多情境下得到廣泛的應用,除了進行視頻中的語音增強和語音識別,目前也正在探索如何將該技術整合到谷歌的產品中,比如用到谷歌視頻會議服務改善用戶體驗,或者未來用到醫療領域改進助聽器等。”由此可見,這一技術必將推進眾多領域研究的進展。作為普通大眾,我們也可以來大膽猜想一下將該技術的應用對我們未來的生活或者音樂領域帶來哪些改變。

或助力智能音箱的發展

隨著AI的發展,智能家居的普及,智能音響也將成為互聯網時代人類與其他家居溝通的鑰匙。所謂智能音箱,其核心是要讓機器在語音對話這一環節擁有近似於人的能力。目前,智能音箱的技術難題也主要在於語音識別技術,比如如何在嘈雜的環境中識別語音指令。試想利用谷歌的音頻語音-視覺分離技術,那智能音箱必將更準確聽懂人的指令,給人帶來更好的使用體驗。

牆外|谷歌模擬“雞尾酒會效應”:構建模型實現人聲分離

或滿足你對Live視頻的任意需求

對於一些狂熱的現場音樂會追隨者來說,這必將是一份大福利。喜歡現場音樂的人都有一樣的感受,在演出現場的時候盡情參與大合唱是一種極好的體驗,但日後看視頻回顧並不想聽見裡面激動的粉絲留下的印記。試想以後這項技術普及到我們的日常生活中,不管你是想聽沒有觀眾呼喊聲的現場,還是連伴奏都不想要,只想沉迷於愛豆的清唱,那將都不是件難事。

或推進音軌提取技術的革新

如果你也是經常提取伴奏的音樂發燒友,肯定也十分困擾於提取了伴奏但質量不高,通常會丟失很多音樂元素,或者聲音顯得空洞無力,伴奏幾乎無法使用。但如果未來谷歌的這項人聲分離技術得到普及,那我們再也不用費勁心思去弄一首歌的伴奏,結果還得到不盡如人意的伴奏。

“雞尾酒會”難題的解決以及音頻-視覺語音分離技術的提出,必將為語音識別領域的許多問題打開一片新的廣闊天地。誠然,新技術的應用通常也需要一段時間的沉澱以及經受市場的考驗,但從以上初步設想來看,這一音頻-視覺語音分離技術是絕對值得期待的。


分享到:


相關文章: