谷歌研發開源揚聲器Diarization AI技術,語音區分準確率高達92%

谷歌研发开源扬声器Diarization AI技术,语音区分准确率高达92%

在最近的一篇博客中,谷歌宣佈他們已經開源了他們的揚聲器Diarization技術,該技術能夠以高準確率區分人們的聲音。谷歌可以通過將包含多個參與者的音頻流劃分為每個參與者的同質段來實現這一點。

將語音劃分成同質段有許多應用。谷歌的研究科學家Chong Wang解釋說:

通過解決“誰說了什麼時候”的問題,說話人二值化在許多重要場景中都有應用,如理解醫療對話、視頻字幕等。

能夠準確地分割會話可以提高在線和離線Diarization系統的質量。這種好處在醫療保健行業有很多實際的好處,正如最近的年報家庭醫學雜誌報道的那樣:

醫生通常在11個小時的工作日裡花6個小時在電子健康檔案(EHR)上。因此,一項研究發現,接受調查的醫生中,超過一半的人報告至少有一種倦怠症狀。

使用監督學習方法來訓練語音聽寫系統在歷史上一直具有挑戰性,Wang解釋了原因:

使用監督學習方法對這些系統進行訓練是具有挑戰性的——與標準的監督分類任務不同,穩健的Diarization模型需要將新個體與未參與訓練的不同語音片段關聯起來。重要的是,這限制了在線和離線Diarization系統的質量。

在流媒體音頻輸入上使用在線揚聲器Diarization,可以檢測不同揚聲器,如下圖所示,在底部軸上用不同顏色表示不同的揚聲器。

谷歌開發了一篇名為《Fully Supervised Speaker Diarization》的研究論文,他們引入了一種新的模型,這種模型比傳統方法更有效地使用監督揚聲器標籤。在這個模型中,會進行一個評估,確定參與會話的說話者的數量,從而增加標記數據的數量。

作為NIST SRE 2000 CALLHOME基準測試的一部分,谷歌的技術實現了低至7.6%的Diarization錯誤率,其中Diarization錯誤率被定義為“被Diarization輸出錯誤標記的輸入信號的百分比”。最近的結果是對基於聚類的方法獲得的8.8%的Diarization錯誤率和使用深度神經網絡嵌入方法獲得的9.9%Diarization錯誤率進行了改進。

現代揚聲器Diarization系統通常利用聚類算法,如k均值或光譜聚類。Wang解釋了使用這些方法的一些缺點:

由於這些聚類方法是非監督的,不能很好地利用數據中可用的監督說話人標籤。此外,在線聚類算法通常在流媒體音頻輸入的實時Diarization應用中質量較差。該模型與常用聚類算法的關鍵區別在於,該方法採用參數共享遞歸神經網絡(RNN)對所有說話人的嵌入進行建模,並利用在時域內交叉的不同RNN狀態,對不同的說話人進行區分。

為了說明這個模型是如何工作的,考慮4個不同的揚聲器(該模型可以支持未知數量的揚聲器),每個揚聲器都用自己的顏色(藍色、黃色、粉色和綠色)表示。每個揚聲器都有自己的RNN實例,其中初始狀態在所有揚聲器之間共享。一個演講者將繼續更新他們的RNN,直到另一個演講者開始講話。例如,藍色的音箱可以開始對話,直到它轉換到黃色音箱為止。在這兩個時間段內,每個發言者在發言時都會更新他們的RNN。當對話從一個發言者轉換到另一個發言者時,所有參與者都會出現這種情況。

Wang解釋了為什麼使用RSS狀態很重要:

將說話人表示為RNN狀態使我們能夠使用RNN參數學習不同說話人和話語之間共享的高級知識,這保證了更多標記數據的有用性。與此相反,常見的聚類算法幾乎總是獨立地處理單個話語,因此很難從大量標記數據中獲益。

下一步,谷歌將繼續降低Diarization錯誤率,整合上下文信息進行離線解碼。為了進一步瞭解揚聲器Diarization技術,谷歌發表了一篇論文,並在GitHub上提供了它的源代碼。


分享到:


相關文章: