特約專欄丨宗成慶:人類語言技術展望

人類語言技術展望

摘 要

機器翻譯伴隨著世界上第一臺計算機的誕生而出現,隨後成為人工智能領域最具挑戰性的研究課題之一。70 多年來,以機器翻譯、人機對話系統、文本自動分類、自動文摘和信息抽取等為代表性應用的人類語言技術所走過的曲折發展歷程,從不同的側面折射出人工智能領域的榮祿興衰。本文在簡要回顧人類語言技術發展歷程的基礎上,重點介紹當前該技術面臨的主要挑戰和研究現狀,並對未來發展的趨勢進行展望。


關 鍵 詞

自然語言處理;自然語言理解;計算語言學;人類語言技術


--中國人工智能學會通訊 2020年

第10卷 第1期 特約專欄


特約專欄丨宗成慶:人類語言技術展望

宗成慶

中國科學院自動化研究所研究員,CAAI Fellow,國際計算語言學委員會(ICCL) 委員,亞洲自然語言處理學會(AFNLP) 主席。主要從事自然語言處理、機器翻譯等研究。主持國家項目10餘項, 國家重點研發計劃重點專項首席科學家,ACMTALLIP 和《自動化學報》副主編。曾任國際一流 學術會議ACL 2015 和 COLING 2020 程序委員會主席,多次擔任IJCAI和AAAI領域主席。曾獲國家科技進步獎二等獎、錢偉長中文信息處理科學技術獎一等獎等。榮獲北京市優秀教師、寶鋼優秀教師和中科院優秀導師等榮譽。


0 回顧

自1956年人工智能(Artificial Intelligence, AI)概念被提出以來, 自然語言理解(Natural Language Understanding, NLU)就一直是這一領域研究的核心問題之一。儘管上個世紀60年代提出的計算語言學(Computational Linguistics, CL)和70年代衍生的自然語言處理(Natural Language Processing, NLP)概念分別從數學建模和語言工程角度各自詮釋了不同的外延,但 NLU、CL 和 NLP 這三個術語的實質內容和共同面對的科學問題並無本質的差異,其實際應用目標是完全一致的。因此,在不引起混淆的情況下人們通常以“人 類語言技術”(Human Language Technology, HLT)泛指這一集語言學、計算機科學和認知科學等研究為一體的多學科交叉領域。


回顧人類語言技術發展的70多年曆史,其技術方法大致可以劃分為三個階段:① 從學科萌芽期到上個世紀80年代後期及90年代初期,為採用以模板、規則方法為主的符號邏輯階段 ,屬於理性主義方法;② 從上個世紀90年代初期到2013年前後,是以統計機器學習為主流方法的經驗主義方法時期;③ 從2013年之後,進入 了以多層神經網絡為主流方法的連結主義時期。圖 1 給出了整個70年的大致走勢。


在理性主義方法為主的歷史階段,主要研究工作是建立高質量的詞典、規則和推理算法,通過符號推理和邏輯運算實現自然語言句子的分析、轉換和生成,其代表性的理論是喬姆斯基(N. Chomsky)的句法結構理論。


在經驗主義方法為主流方法的歷史階段, 主要研究工作是獲取大規模訓練樣本,研究建立高質量標註體系和自動標註算法,構建基於統計方法的計算模型和算法,通過調試和優化模型參數實現面向自然語言處理任務的推斷和預測,其主要理論基礎是概率論和信息論。在這一階段, n 元語法(n-gram) 模型誕生, 隱馬爾可夫模型(Hidden Markov Model, HMM)、 支持向量機(Support Vector Machine, SVM)、最大熵(Maximum Entropy, ME)和條件隨機場(Conditional Random Fields, CRFs)等一系列統計學習方法,被廣泛應 用於自然語言處理任務。統計機器翻譯(Statistical Machine Translation, SMT)系統誕生,一批開源工具公開發布,谷歌、微軟和百度等公司研發的統計機器系統相繼上線,推動了該技術的快速發展。


特約專欄丨宗成慶:人類語言技術展望

圖 1 HLT 技術發展的歷史階段

(圖中曲線上的標誌點表示發生在當年的標誌性事件,限於篇幅,本文不一一列舉)


繼2006年G. E. Hinton(辛頓)等人將多層神經網絡方法成功應用於圖像識別之後,2009年微軟實現了基於多層神經網絡的語音識別系統, 並使識別錯誤率大幅度下降,深度學習方法得到大規模應用。2014 年紐約大學Kyunghyun Cho和加拿大蒙特利爾大學的Yoshua Bengio等人提出了基於注意機制的編碼器 - 解碼器(encoder-decoder) 基本框架,對神經網絡結構創新和二次開發,建立了基於神經網絡的機器翻譯系統, 簡稱神經機器翻譯(Neural Network based MT, NMT)系統。在此基礎上谷歌於2017年提出了完全基於注意機制的 Transformer 模型, 國內眾多公司通過跟蹤、完善,實現了自己的神經翻譯引擎,為普通用戶提供機器翻譯服務。很多中小型企業利用開源平臺和互聯網開放數據快速搭建性能尚可的機器翻譯系統,或者直接利用谷歌和百度等公司提供的翻譯服務,從而使這一領域出現遍地開花、 欣欣向榮的大好局面。2018 年Google發佈的雙向預訓練模型BERT(Bidirectional Encoder Representation from Transformers)更將這一技術領域推向高潮。


1 現狀

語言技術涉及眾多領域和分支,不同的分支和方向具有相對的獨立性,發展起點和速度也不一樣,無論是理論基礎和關鍵技術,還是資源建設和應用系統研發等,在不同的層面上發展狀況都不一樣,很難對其研究現狀一概而論。以下僅對部分應用系統的性能現狀進行簡要的概括,希望能夠達到管中窺豹的效果。


機器翻譯作為自然語言處理中最具挑戰性的研究課題,其譯文質量的水平在很大程度上代表著自然語言處理技術的整體水平。近年來,尤其是2014年神經機器翻譯模型提出以後,機器翻譯的譯文質量得到了顯著提升。對於口語翻譯而言,在資源較為充分的語言對上(如英漢、日漢、英 法等),在說話場景不是非常複雜、口音基本標 準、語速基本正常、使用詞彙和句型不是非常生僻的情況下,日常口語翻譯的性能基本可以滿足交流的需要。對於專業領域的文本翻譯而言,在訓練語料較為充分時譯文準確率可以達到 75% 以 上。新聞領域的翻譯準確率跨度較大,總體而言, 新聞文本的翻譯準確率基本在 70% 左右。而對於譯文質量要求較高的翻譯任務,如領導人的講話稿或著作、文學名著,以及嚴肅場景下的演講和對話(包括領導人的講話、答記者問,或者有較嚴重口音的講座和對話等),機器翻譯系統都難以勝任。在可預見的未來看不到機器翻譯系統將替代人工翻譯的可能性。而對於資源稀少的小語種(如烏爾都語、波斯語等)與漢語之間的翻譯, 目前的機器翻譯系統只能以快速獲取信息為目的幫助人們大致瞭解原文的主題和內容。


人機對話系統一直是人們關注的熱點,也是自然語言處理領域極具代表性的研究任務。對話系統通常包括面向任務的對話系統(task-oriented dialog system)和開放域的對話系統(open-domain dialog system)兩大類。前者稱為任務型對話系統, 如機票預訂系統等;後者稱為閒聊式對話系統, 如聊天機器人等。目前學術界研究的對話系統基本都採用數據驅動的方法,尤其端到端的神經網絡模型提出之後,幾乎成為類似任務實現的統一框架。這類系統的性能在很大程度上取決於訓練樣本的規模和質量。耐人尋味的是,目前商用的任務型對話系統基本上都採用基於規則的實現方法。對於特定領域和特定任務的對話系統而言, 其任務完成的準確率可以達到75%以上,這對於某些特定的領域或行業,需要大量工作人員完成 的重複性較大的服務任務來說,已經能夠大幅度節減人力資源,提高工作效率。


總體而言,自然語言處理已經取得了豐碩成果,新的模型和方法不斷被提出,並得到成功應用;很多應用系統已經被廣泛使用,並直接服務於社會生活的各個方面。但是,自然語言處理仍面臨若干挑戰,遠沒有達到像人一樣理解語言的程度。當前面臨的主要問題可以概況為如下五點:


(1) 缺乏有效的知識表示和利用手段

這裡所說的知識,包括常識、領域知識、專家的經驗知識和語言學知識等。對於大多數語言學知識和部分領域知識在一定程度上可以從大規模訓練樣本中學習到,但是很多常識和專家經驗往往是“超出訓練樣本範圍”的。例如,“Premier Li”曾經在很長的一段時間裡指代李鵬總理,可是目前應該指李克強總理;“transformers”在政治領域指改革者,在電力系統指變壓器,在兒童玩具中指變形金剛,而在自然語言處理領域指轉換器。那麼,具體指什麼,需要根據上下文背景和領域確定。再如,在雞兔同籠問題求解中,關鍵常識是雞有兩條腿、兔子有 4 條腿。如果沒有 這種常識,這個問題就無法求解。對於人而言, 這些知識都是常備的;而對於機器而言,卻難以從樣本中(尤其是有限的小規模樣本中)歸納學習出來。


(2) 缺乏未知語言現象的處理能力

對於任何一個自然語言處理系統來說,總是會遇到未知的詞彙、未知的語言結構和未知的語義表達。所謂“未知”即在訓練樣本和詞典中未曾出現過。世界上任何一種語言都在隨著社會的發展而動態的變化和演化著,新的詞彙、新的詞義和新的句子結構都在不斷出現,這些現象在微博、聊天和日常會話等非規範表述中尤為突出。例如,“李菊福”表示的意思是“有理有據使人 信服”;“內牛滿面”意思是“淚流滿面”;等等。如果系統的前端輸入是語音或者圖像,語音識別或者OCR處理後的結果中含有大量的噪聲,也是十分常見的現象。因此,一個實用的自然語言處理系統必須具有較好的未知語言現象和噪聲的處理能力,即魯棒性(robustness)。


(3) 模型缺乏解釋性和“舉一反三”能力

儘管包括神經網絡方法在內的機器學習方法已經在自然語言處理的各種應用任務和關鍵技術研發中發揮了重要作用,但是這些方法畢竟採用的是以概率計算為基本手段的“賭博”思維,其性能表現嚴重依賴於訓練樣本的質量和規模,當測試樣本與訓練樣本差異較大時,模型性能急劇下降,更無從談起“舉一反三”。從純粹的自然語言理解角度,目前的模型性能還非常有限,尤其缺乏合理的解釋性。對於給定的輸入,模型在“黑 箱”變換過程中產生錯誤和丟失數據的原因是什麼?每一層變換意味著什麼?最終結果的可靠性有多大?目前還沒有合理的解釋。


(4) 缺乏交互學習和自主進化的能力

自然語言處理系統在實際使用過程中會持續得到用戶的反饋,包括對系統結果的修正、為系統增加新的詞彙解釋和補充新的標註數據等。傳統的機器學習方法是將用戶的反饋信息添加到訓練數據中,重複進行“訓練—測試”循環,以達到不斷優化模型的目的。但是這種方法通常需要較長的迭代週期,難以有效利用實時的反饋信息。類比人的交互學習能力,一個智能系統應該具備在線交互學習的能力,即從用戶與系統的交互過程中不斷學習、補充和修正已有的知識,以達到模型自主進化的效果,而這個學習和進化過程是終生的(life-long learning)。


(5) 單一模態信息處理的侷限性

目前的自然語言處理研究通常指以文本為處理對象的研究領域,一般不涉及其他模型信息的處理,例如語音、圖像和視頻等信息,最多在某些場景下利用語音識別或 OCR 作為前端預處理, 各模塊之間是獨立的,與語音、圖像和視頻等信息處理過程是相脫節的,這嚴重違背了“類人智 能”的基本前提。對於人而言,通常是“眼觀六路, 耳聽八方”,說出來的話,寫出來的字,與看到的實際情況是一致的,而來自各個器官的信息是相互補充和驗證的。試想,同樣一句話藉助不同的語調、重音和手勢表達,意思很可能完全不同。因此,多模態信息綜合利用、協調處理,勢在必行。


另外,在談論人類語言技術整體現狀時,不得不對我國在該領域的迅速崛起給予充分的肯定和讚譽。近 10 年來, 中國的自然語言處理研究發展迅猛,無論是在國際一流學術會議(ACL、 EMNLP、COLING、AAAI、IJCAI、WWW 等 )和期刊上發表的論文數量,還是我國學者在相關國際學術組織中擔任重要職務的情況,都無可爭辯地標誌著我國在這一領域擁有的舉足輕重地位和勢不可擋的發展趨勢。然而,令人遺憾的是, 這一領域在國內卻沒有得到應有的地位和話語權。


2 展望

作為人工智能領域重要的研究方向和分支, 語言技術研究不僅涉及詞法(形態)、句法、篇章和語義等語言學本身的特點和規律,需要解決基礎性關鍵問題,而且需要面向實際應用構建機器翻譯、自動文摘、情感分析、對話系統等特定任務的數學模型和方法。筆者認為,最終要解決人類語言理解的問題,使相關應用系統的性能達到更高的水平,滿足個性化用戶的需求,甚至真正做到像人一樣理解語言,以下三方面將成為未來發展的重要方向。


(1) 與神經科學密切結合,探索人腦理解語言的神經基礎,構建更加精準、可解釋、可計 算的語義表徵和計算方法

人腦是如何表徵和處理文本語義的,這是一道難解之謎。相比於視聽覺等神經系統,目前對於人腦語言系統的瞭解還非常初步。近年來,數據驅動的自然語言處理方法在很多方面有效地彌 補了傳統方法的不足,但是,正如前文所述,數據驅動的方法存在很多固有的弊端,包括性能對訓練樣本的依賴性、模型的可解釋性和常識的表示、獲取和利用等問題,而人腦在小樣本數據上的歸納、抽象和舉一反三的能力恰恰是目前深度學習方法所不具備的,那麼如何發現和模擬人腦語言理解的機理,構建類腦語言理解模型,是擺在我們面前的一個挑戰性問題。


(2) 構建高質量的基礎資源和技術平臺

無論是以符號邏輯和規則運算為基礎的理性主義方法,還是數據驅動的經驗主義方法,高質量的基礎資源是不可或缺的根本。這裡所說的基礎資源包括高質量、大規模知識庫,雙語對照的平行句對和詞典,面向特定任務的標註樣本等。儘管知識圖譜已經成為目前研究的熱點,而且已經構建了若干大規模的知識圖譜,但是,尚沒有 知識圖譜表示的規範,對於通用領域而言,知識圖譜的規模到底應該多大?知識表示的粒度如何劃分?常識如何表示和利用?對於特定領域的具體應用,知識圖譜應該如何構建?等等,無數問題擺在我們面前。對於很多語言,尤其是小語種, 可利用的數據資源十分可憐,甚至很多語言與漢語對應的雙語詞典都沒有,如波斯語與漢語、烏爾都語與漢語、達利語與漢語等,更別說大規模雙語平行語料。高質量的關鍵技術工具無論對於哪種後續的應用任務,都是不可或缺的,如命名實體識別工具、某些語言的形態分析工具等。


(3) 打通不同模態信息處理的壁壘,構建多模態信息融合的處理方法和模型

如前所述,已有的語音、語言、圖像和視頻處理研究基本上是“井水不犯河水”,各走各的陽關道,而在真實情況下的應用任務中往往需要多模態信息的綜合利用,從模擬人腦理解語言過程的角度,各類感知信息的綜合利用也是情理之中的事情。


綜上所述,目前的人類語言技術已經得到了廣泛應用,但其性能水平基本上還是停留在“處理” 層面,遠沒有達到“理解”的水平,未來的任務艱鉅而充滿挑戰。同時,不得不說的是,中文有其獨特的規律和熱點,無論從哪個角度講,研究和開發以中文為核心的自然語言處理技術都不應該成為被忽視的盲點。

(參考文獻略)


分享到:


相關文章: