祖漪清:人工智慧如何拯救方言?

方言保護


當前,隨著經濟、文化互動的全球化,主流或通用語言更加強勢,弱勢語言正瀕臨消亡。目前世界上大約有6000~10000多種語言,而據語言學家預測大部分將於本世紀末消失。


瀕危語言保護(下簡稱為“語保”)已經成為一項重要而迫切的工作。目前在中國,一些少數民族語言、方言等弱勢語言的使用人數正明顯減少,如不及時對弱勢語言採取措施,我們將失去對人類文化遺產完整記錄的機會。

祖漪清:人工智能如何拯救方言?

當前方法手段不能滿足語保進程

我國對語保工作早就有所重視,並有著深厚的方言研究基礎。2005年我國啟動國家語言資源保護工程(以下簡稱為“語保工程”),我國學者對方言保護的主要研究方法是田野調查,研究內容包括中國語言資源有聲數據庫、方言詞典、方言地圖等。

國際語言學家也對瀕危語言進行了語言資源記錄。2017年,美國科學家提出“語音羅塞塔計劃”,旨在通過“未知”語言的語音和“已知”語言的文本的平行關係記錄沒有文字的“未知”語言(即瀕危語言)。

歸納、確定被研究語言的基本音位是語言記錄的基本工作之一,但目前這項工作很大程度依賴於調查者對語音的主觀感知和“口耳”工作。由於依賴人工,分析語料侷限於孤立的字、詞,導致研究進度受限,很難將研究內容擴大到連續語音,從音位歸納上升到句法、語義層面的分析。並且,很多中國方言,特別是南方方言中,孤立音節的聲韻調在連續話語中表現多變,在複雜的連續話語中,去除語境、韻律結構、情感等諸多因素的干擾,歸納完整的語音變化單靠人力是力所不及的。


同時,隨著社會發展的日新月異,每隔數年語言會發生明顯變化。因此,語言記錄和分析需要高效的解決方案。

利用AI技術實現“語言複製”迫在眉睫

利用人工智能技術系統地研究瀕危語言、方言的語音結構乃至語言結構,實現對一種語言的完整“複製”迫在眉睫。


祖漪清:人工智能如何拯救方言?

“語言複製”的概念是通過智能語音技術對一種語言實現完整記錄。記錄內容包括確定該語言的語音結構(例如音節語言的聲母、韻母、聲調等)、完整分析該語言的句法結構、連續語音的音變和連讀變調分析、基本意義單位和主流語言的對應關係以及這個語言的任意文本或語音和主流語言之間的互譯關係。


基於主流語言語音系統,完成語音複製需要建立被研究語言的語音合成系統(文語轉換系統)、語音識別系統以及和主流語音之間的翻譯系統。科大訊飛智能語音技術的發展和多年來的語言積累,可以助力語保工程。一些核心技術的突破和語言積累,使得不同語種之間互譯成為可能。

科大訊飛人工智能(AI)研究院有著豐厚的智能語音研究基礎,到目前為止實現了中文、英文以外的

30多種語言(包含多種少數民族語言)的語音合成、語音識別、翻譯,其中許多語音系統屬拓荒性系統。研究院基於深度學習技術,採用全球文本、聲學解決方案,在除中文普通話、英語等強勢語言以外的許多語音合成系統上突破了語音合成MOS4.0的門檻,目前正嘗試在部分瀕危語言和方言上進行語言複製。

需要更多熱愛母語的人參與

不同的研究目的會產生不同的語言分類。從人工智能的角度出發,我們將語言分為主流語言非主流語言。中文普通話就是主流語言。非主流語言又分為三個類別。第一類是文字、口語都被廣泛使用的語言,例如維吾爾語、藏語等。在這類語言的使用區域,雖然文字被廣泛使用,但是往往缺乏正字規範。第二類是有文字但較少使用、口語仍被正常使用的語言,例如彝語、錫伯語等,語言群體內大多數成員僅限在家鄉口語交流時使用,多數群體成員不能熟練使用文字或基本不識字。第三類為瀕危語言及沒有文字的語言,包括只有少數老人還在使用、群體內幾乎所有其他的成員都已放棄使用的語言以及沒有文字的語言。對這類語言進行完整記錄比較困難,實現語言複製也有相當難度。

對於文字、口語都被廣泛使用的語言實現語言複製是可行的;對於有文字但較少使用、口語仍被正常使用的語言,實現語言複製也是可能的。對於沒有文字的語言可以收集被研究語言的語音,並在有條件的情況下轉寫成主流語言的文字,使用這樣的平行數據,利用人工智能領域的端—端技術實現被研究語言語音到主流語言文本之間的轉換,即美國科學家正在實施的“語音羅塞塔方案”,這在邏輯上是可行的。但被研究語言的採集、文本轉寫缺乏規範並存在許多具體困難。

在可能的情況下儘可能多地收集自然語音和文本的平行數據是十分有意義的。有了足夠大的數據,即使目前處理不了,今後仍有機會可利用。利用人工智能技術進行語言記錄是一個研究方法的問題,在具體工作中仍然需要採用正確的技術路線進行操作,即使使用了人工智能技術,語言數據的處理仍然脫離不了人力支持。語言是全人類的共同財富,每種語言背後都有精彩的文化。語保工程不應該只是少數人的事業,應該有更多熱愛自己母語的人群參與。

聲明:原文刊發於《中國科學報》2018年7月12日。

中國社科院語言所網絡信息化工作室編輯


分享到:


相關文章: