根據你的聲音,描繪出你的樣貌,這大概是AI目前做的最酷的事情了

美國麻省理工學院的研究人員發明了一種技術,可以僅憑一個人的聲音,來繪製其面孔。

這項技術就是Speech2Face。

Speech2Face實際上是一個神經網絡系統。麻省理工學院的研究者們利用YouTube等網站上的海量視頻作為訓練集,開發出這套算法,它可以查找出人們說話時相關的面部特徵,憑藉聽“一個人講話的方式就能推斷出其相貌”。通過上述這張圖片,你可以看出,雖然結果不是很完美,但確實,相似度很高。

只要有足夠多的數據,足夠強的計算能力,和足夠長的時間,神經網絡系統就可以通過分析視頻片段、匹配人聲與人臉並找到兩者之間的模式和趨勢,來“學習”如何繪製人的樣貌。

但是,請注意,Speech2Face可以精確描繪出人臉中除了眼睛以外的部位,如鼻子、嘴唇、臉頰和骨架。原因在於,這些部位特徵與人的聲音之間有著直接的聯繫。比如說:聲音低沉的人可能鼻子更寬;下巴越寬的人,聲音可能越高。而眼睛的形狀以及大小與聲音並沒有什麼直接關聯。

那麼,Speech2Face究竟是怎麼做到的呢?

想象一下,你和一個素未謀面的人打電話時的樣子(比如說客服),或許你並沒有意識到,你在打電話的時候,就已經通過對方的聲音在腦海裡勾勒出對方的樣子了。倘若你用過播客,或者參與過電話會議,你甚至不需要任何努力,就能知道講話的人是誰。

舉個例子,請你根據以下三個步驟想象一下:

Step 1. 虛擬一個場景:酒吧裡有兩個小夥子在聊天

Step 2. 想象一下他們的對話內容和語調

Step 3. 假設他們說話帶著澳大利亞口音

他們長什麼樣子?頭髮是什麼顏色?

你腦海裡浮現的樣子可能和我不一樣,但重點是,對於一個有著澳大利亞口音的男人,我們對其樣貌認知是有相通之處的。你繪製出來的這兩個人的長相可能和你在現實生活中認識的澳大利亞人有些相像,也有可能和你見過的所有澳大利亞人的長相都有某些相同點。

這就是Speech2Face做的事情,只不過它考慮的模式更多。有趣的是,我們的大腦已經可以完成Speech2Face做的一部分事情,如通過聲音來辨認朋友。

所以說,生成對抗網絡是憑空創造一個不存在的人,Speech2Face乾的則是另外一件事情。

我認為,很有可能用不了十年,人工智能就可以創作出一個類人類的人造生命,它的聲音和樣貌都會和人類很相似,屆時,我們將很難區分人造人和真實的人類。


分享到:


相關文章: