將無聲變有聲?東大索尼已共同研發

將無聲變有聲?東大索尼已共同研發


不出聲,僅僅通過喉嚨和下顎的皮膚震動就能知道你想說什麼。


這可不是特工電影裡某個天馬行空的高科技,最近,東京大學和索尼計算機科學研究所(CSL)共同研發出AI系統“Derma”就能實現上述功能,通過將傳感器貼合在喉嚨周圍的皮膚上,就能實現從口形(無聲說話)到語音的轉化。


電影裡奄奄一息的富翁想要修改遺囑卻無法發聲最終被自私的兒子私吞財產的事再也不會發生了,當然首先,你要成為富二代。


將無聲變有聲?東大索尼已共同研發


當然,小融開玩笑的,這項技術可不是用來幹這個的。


據相關研究人員透露,研究靈感最初來源於視聽障礙者的觸診唇讀法,他們會用手指觸摸說話者的嘴唇和下巴周圍,以此讀取說話內容。也就是說,他們通過觸摸障礙者嘴唇周圍的皮膚就可以知道他們的說話內容。


研究中,研究者們利用機器學習把整個過程自動化,完成了深層學習的無聲語音交互(Silent Speech Interaction,SSI)。


將無聲變有聲?東大索尼已共同研發

傳感器安裝圖


不過目前相關設備還在進一步地完善中,與可穿戴電子設備和身體嵌入式計算設備結合也還處於設想階段。


小融想想也不是什麼壞事。

將無聲變有聲?東大索尼已共同研發


具體說一下“Derma”。


據小融所瞭解和看到的資料,只要在下顎皮膚的兩個位置安裝MEMS(Micro ElectroMechanical Systems)加速度計和角速度傳感器,就能通過隨著說話發生的下顎運動和舌肌運動引起的從下顎到喉嚨的皮膚顫動,進行無聲的“語音識別”了。


實驗中,研究者從傳感器上獲取到了12維皮膚運動信息,通過深度學習能夠分析識別35種發聲命令短語,而且他們發現,系統的識別準確率達到了94%以上


將無聲變有聲?東大索尼已共同研發

Derma的概要圖:利用附著在咽喉周圍皮膚上的加速度/角速度傳感器,通過無聲說話獲取下顎皮膚運動信息,利用深層學習進行分析和識別


於是,利用生成音素記號系列的連接時間分類(Connectionist Temporal Classification, CTC)的神經網絡進行訓練,訓練之後的模型就能把無聲說話的皮膚顫動轉換為語音,轉換後的語音合成除了可以輸入到附近的具有語音識別功能的數字設備(語音助手)之外,還可以用於幫助因聲帶損傷等原因而難以發聲的用戶進行交流


將無聲變有聲?東大索尼已共同研發

實驗使用的加速度/角速度傳感器


與現有的無聲語音交互研究相比,這個設備在安裝時並不顯眼,而且體積小、重量輕、耗電量低,不易受到照明條件等周圍環境因素的影響。在生活中,該設備也不會影響到使用者的正常生活,吃飯和日常的交流可以照常進行,簡直不能再實用!若想了解更多資訊或商務合作,請添加融匯金信公眾號:rxhui2010


小融相信這個設備在未來會造福大批殘障人士。

將無聲變有聲?東大索尼已共同研發


分享到:


相關文章: