人工智能幫助瀕危語言 “復活”

人工智能幫助瀕危語言 “復活”

圖片為易洛魁聯盟旗幟,來自維基共享資源

據語言學家估計,在全球化、文化同化等多種因素的影響下,到本世紀末,世界上約 7000 種的語言至少有一半將會消失。

記錄及振興瀕危語言的工作充滿挑戰,其中部分原因在於缺乏相應的文本和語音記錄。塞內卡語是北美地區六個易洛魁聯盟所使用的語言之一,目前,僅有約 100 人將塞內卡語作為第一語言,另有數百位非母語人士正在學習塞內卡語。

自動語音識別 (ASR) 技術已被廣泛應用於轉寫英語和漢語等大語種,這些語言的使用人數高達數百萬至數十億。但對於塞內卡語這類使用人數稀少且可用數據極度貧乏的語言來說,自動語言識別技術發揮出的作用只是皮毛而已。

現在,紐約羅切斯特理工學院的一組研究人員以及布法羅大學的同事正在利用深度學習技術來增強自動語音識別的功能。該項目現階段的工作核心是塞內卡語,但研究人員的願景是將其應用於全球各種瀕危語言的保護,使之成為全人類共同文化歷史的重要組成部分。

“接觸不同的語言可以讓我們更多地瞭解大腦的運作機制”,波士頓學院計算機科學助理教授兼羅切斯特理工學院研究員 Emily Prud'hommeaux 說道,“在記錄一種語言時,保存下來的不僅是這種語言本身,還有人類使用語言的基本方式”。

Prud’hommeaux 及其同事選擇從塞內卡語開始入手並非偶然。她表示,團隊中有三名成員是塞內卡人,在此類研究中,這種直接的聯繫實屬罕見。

項目帶頭人是 Robbie Jimerson,他是羅切斯特理工學院 Golisano 計算與信息科學學院的博士研究生,也是塞內卡印第安人部落中的一員,熱衷於保護塞內卡語免於消亡。

“部落中的長老為塞內卡語的保護和推廣付出了很大的努力” ,Jimerson 說道,“我也在尋找機會貢獻自己的一份力量”。

利用生成對抗網絡創建更多語言樣本

目前,該項目已經進行到了第三個年頭,在積累語言數據時,研究人員遇到了一些挑戰。Jimerson 說,塞內卡群體在與外人分享東西時十分謹慎,所以塞內卡語的錄音資料非常少。而他則迎難而上。

一開始,他把會說塞內卡語的朋友和老人當作錄音對象,並請求這些人錄下他們和各自朋友的談話錄音。每當有人在公共場合說塞內卡語時,他都不會錯過錄音的機會。此外,他還請家人錄下老人講述的古老傳說,同時也蒐集了互聯網上一切可以公開獲取的視頻和錄音資料。

研究團隊精心編寫了一款專門用來處理塞內卡語的自動語音識別模型,並通過生成對抗網絡利用有限的錄音創建出更多的語音樣本。該模型將錄音的波形文件轉換為字符流,同時計算出概率並進行校正。

隨後,他們將得出的數據輸入深度學習模型,後者反過來增強了自動語言識別模型的準確度。

研究團隊的網絡採用了兩種計算配置:其一是配備了九臺服務器的機器學習實驗室,實驗室中運行著若干臺 NVIDIA Tesla GPU;另一種是配備了大型服務器的大學集群,每臺服務器上運行著 10 臺 NVIDIA Tesla P4 GPU。每個集群都運行著一系列深度學習框架,如 TensorFlow 和 Caffe。

“計算工程集群供計算機工程學院的所有學生使用,所以大家會‘爭搶’資源”,Ray Ptucha 如是說,他是羅切斯特理工學院計算機工程學院的助理教授,也是本項目的另一位成員。

有了這些彌足珍貴的集群,Jimerson 可以在運行著 NVIDIA TITAN X 的本地機器上測試代碼並檢查模型的穩定性,從而避免運行可能會崩潰的模型,以至於為其他學生帶來不便。

準確度更上一層樓

到目前為止,經過團隊的不懈努力,其自動語音識別模型的文字錯誤率已由 70% 降至 56%。Prud’hommeaux 稱,他們的目標是將錯誤率降低至 25%,這一水平相當於幾年前使用自動語音識別系統處理英語語音的水平。

團隊可以積累的塞內卡語語音和文字樣本越多,識別錯誤率就會越低。(如今,英語自動語音識別模型可以達到低至 5% 的錯誤率。)

該團隊取得的成果有望為全球其他語種的保護工作提供幫助。

據 Prud’hommeaux 稱,團隊已與一家存檔機構達成協議,這是美國國家科學基金會為該項目提供的資助條件。當他們開展記錄瀕危語言的其他工作時,可使用最終形成的語言存檔數據庫作為可用資源。

與此同時,Prud’hommeaux 還表示,團隊的工作將為只能利用有限數據量的深度學習研究提供思路。


分享到:


相關文章: