谷歌逆天技術,也許以後在公共場所聊天,帶口罩變聲才安全

人類具有一種能力,在背景雜音中,精準定位與自己對話的對象。谷歌公司的專家們利用深度學習結合臉部辨識,實現了此類效果。


簡單來說,研究學者先用「乾淨」的人聲與對應的視覺影像混合成一個假想的吵鬧場景,然後訓練機器去辨識如何從場景中還原出單一的人聲來,最後產生一個模型。以這個臉部與聲線對應的模型為基礎,當偵測到目標嘴巴在動,系統就會試圖抓取音頻,將相關的部份分離出來。

谷歌逆天技術,也許以後在公共場所聊天,帶口罩變聲才安全

如同上面的脫口秀視頻所示,這效果驚人地好,不僅可以把背景的雜音濾掉,就算有兩個人同時在大聲說話,也可以把目標分離出來。而且,即使講者用麥克風擋住了嘴巴,似乎也不影響辨識呢。

也許以後在公共場所聊天都得帶口罩變聲才安全。


分享到:


相關文章: