人工智能會說“外語”嗎?——自然語言與計算機語言芻議

語言是人類表達交流和思維的重要工具。語言反映人的思想,人使用語言溝通、表達、創作。人類日常使用的語言被稱為自然語言,自然語言包括詞彙語音語義語法等方面。用於機器程序編寫的語言被稱為計算機語言,由數字、字符以及語法規則構成。人類的自然語言有不同語種、分屬不同語系,計算機語言根據編寫規則的不同也分為各種門類。人使用語言對話交流寫作思考的能力,即語言智能,被看作是人類智能的一個方面。相對的,機器(計算機)具備識別計算機語言、運行程序、執行操作的能力,計算機語言可以看作是先天內在於機器裡的語言。如果計算機能夠理解作為“外語”的自然語言,實現對自然語言的翻譯,理解並執行人的命令,乃至與人對話,是否可以認為計算機具有了與人相似的語言智能呢,本文將回答這一問題。

人工智能会说“外语”吗?——自然语言与计算机语言刍议

自然語言與計算機語言的定義

人類日常生活中使用的語言稱之為自然語言,人類用語言表達想法,交流溝通,描述對象。語言作為一種載體,承載了語詞的內涵。人類的多種語言分屬不同的語系,但是語言和語言之間可以對應和翻譯。每種語言都是一個包括詞彙、語法和語音的系統,在系統中根據語法規則運用詞彙進行表達。正如哲學家、語言學家喬姆斯基在《語言與心智》中所講:“知道某種語言的人都掌握了一套規則系統,這套系統以確定的方式為無數種可能的句子指派聲音和意義。”但是使用自然語言的個體並不見得能夠意識到這套語言系統的規則和內涵:“知道語言的人並沒有意識到已經掌握了這些規則或正在使用這些規則,也沒與任何理由假定語言規則的這種知識能夠被帶入意識中”。

自然語言的習得基於生活和社會交往。兒童掌握語言的過程是通過大量對話接觸詞彙和句子,在對話聊天中的習得語句模型,再掌握語法,可見自然語言的學習是從語義到語法的,因此一些學者站在人類語言天賦論的立場上討論語言習得,例如喬姆斯基認為人腦中有一種天生的普遍語法,這一普遍語法存在於人腦中一個叫做語言習得機制的地方。他試圖解釋語言研究與人類本質的關係,認為語言反映人類心智的過程並且決定思想特徵和發展的各方面。

從語言系統來看,自然語言這個系統是穩定性和變動性兼具的。在一種語言存在的前提下,它的詞彙和基本語法是穩定的,同時語言在傳承使用中,受到時代、環境的變化影響,又在不斷更新、衍生和發展。

計算機語言,是指按照規定的語法規則,使用數字、字符來編寫程序,使得計算機能夠進行各種工作的語言,它包括機器語言、彙編語言、高級語言等。在不同的思考程序設計方式和程序設計模型中,字符和語法規則構成的語句按照指令執行操作。計算機語言的設計初衷是為了使人能夠更好地控制和操作計算機。目前,所有計算機做的每次動作每個步驟,都是按照計算機語言編好的程序來執行。計算機的運行操作是這樣一個流程:接受輸入,匹配對象,輸出回答。在執行操作中,計算器首先要理解人的輸入命令,對自然語言進行轉換翻譯,應用程序源代碼由相應語言的解釋器翻譯成目標代碼機器語言,再進行編譯操作,將程序源代碼翻譯成目標代碼機器語言。

可以說,計算機語言是人機對話的媒介。計算機語言在構造中能夠識別並翻譯自然語言,執行操作,輸出結果,其中的翻譯過程是人機合作乃至人機對話的關鍵。機器只有在理解人類輸入的命令之後才能繼續執行操作。在智能機器產生之前,人對機器的輸入指令方式是單一的,但如今的智能機器已經在逐步嘗試通過語音和圖像的識別理解人的命令,目前這種能力主要依賴於語料庫分析、強化匹配搜索以及深度學習。

如果把自然語言的詞彙看作是一套符號,它的語法看作是符號的使用規則,那麼相較而言,計算機語言也是符號和規則的運用。計算機的編碼解碼輸入與輸出,以及在人機交互中的運算,也類似與人在表達和交流中使用語言聽讀說寫的過程。在這個意義上,計算機語言似乎可以看作是計算機的自然語言。如果計算機是真正智能的,那麼在它看來,人類的自然語言可以算作是一門外語。但計算機能具備智能嗎?

要比較自然語言與計算機語言,一個重要的視角是從自然語言和計算機語言中的邏輯系統來辨析兩種語言的內在邏輯。邏輯是語言的重要內涵,一種語言的邏輯結構和語法系統,是使其本質區別於其他語言和語種的根源所在。

自然語言與計算機語言中的邏輯

在自然語言的使用中,歧義和含混是不可避免的,各種語言之間的翻譯也存在誤解和偏差。學者們想要解決表達中語詞的歧義和模糊,找到人類語言中共通的深層結構,於是借鑑數學的方法,發明了形式化語言。形式化語言提出的初衷是人們要想使邏輯學像數學那樣也有一套通用的符號,從而試圖建立一種普遍的、沒有歧義的語言。通過這種語言,可以把所有的思維推理都轉變為演算,變得和數學一樣精確。邏輯學家們試圖用形式化的系統和符號精確刻畫自然語言描述的世界,以更準確地進行推理、分析和判斷。因而在邏輯語言的研究中,也包括了對自然語言生成語法的研究。

自然語言可以看作是一套符號系統,其中的語詞是文化背景下表達觀念的符號。然而自然語言中的邏輯不只是語法結構上的,也是在語義之中的。我們日常表達中某些語詞的歧義和模糊,在語法中很難判斷,但可以通過上下文以及語境的帶入簡單解決。維特根斯坦就認為自然語言是用來表達對象的,一個命題或語句的意義源自外在於它的實在對象,我們學習語言的過程就是掌握語詞與對象之間的關聯。我們無法從一個單獨的詞獲得意義,而要通過關聯和活動,所以自然語言在一定環境和特定的遊戲規則下才具有意義。

因此,自然語言的邏輯比形式化語言的邏輯多一個維度。自然語言是人類心智的一部分,包含在語詞中的邏輯是人類心智獨有的邏輯能力。正如維特根斯坦指出的:單個的詞彙和語法結構並不能傳達完整的意義。自然語言的習得也無法單從語言的邏輯結構學習來獲得。因此,在自然語言的習得中,心智就是一個重要概念。

機器使用的計算機語言也是一種形式化語言。它是人先賦予機器併成為其內有先在的語言。計算機在理解和執行人的命令時,需要將自然語言翻譯為機器可理解的計算機語言,再進行程序操作。將自然語言的形式化描寫,這一步驟對計算機程序的機械模仿至關重要,但理解力模仿不同於機械模仿。機械模仿涉及的是形式性質,而理解力模仿涉及的是準語義性質。現階段計算機以機械模仿為主並通過邏輯語言與人的自然語言對話。因此,儘管計算機對自然語言的處理可以算作一種翻譯,但就目前而言這種翻譯與自然語言中兩個語言之間的互相翻譯是不同的。

計算機在消除歧義過程中,需要大量的知識,包括語言學知識(詞法、句法、語義、上下文等)和關於世界的常識認知。這也造成了目前自然語言處理的兩個主要困難。從自然語言的視角衡量計算機語言,高度形式化使其對語境的刻畫能力有限,也無法像自然語言那樣傳達多層信息。因此,形式化語言雖然在準確度上擁有優勢,語境塑造能力和表達力卻必然弱於自然語言。在自然語言的理解中,詞彙裝置如何與句法結構產生聯繫,從而形成句子表達涵義,這是形式化語言很難完全刻畫的,這也是計算機識別自然語言時產生錯誤的一個重要原因。當然,隨著語料庫建設和語料庫語言學的發展,計算機原先處理自然語言時主要運用的基於句法-語義規則的理性主義方法已退居其次,現今自然語言的處理技術引入了統計數學的方法,在匹配搜索和自動學習的方法支持下逐漸減少錯誤。

認知科學認為思維和認知是知識的邏輯運算,而計算化的自然語言分析則主要依賴邏輯語言的表述。如果從行為主義的角度出發,機器擁有計算機語言,並且在後天的操作執行和使用中不斷強化更加精確,這是一種習得和鞏固。在這個意義上,計算機語言於計算機而言似乎可以說是它的自然語言。然而,儘管自然語言和計算機語言各自都包含很多種類,二者多樣種類的原因是不一樣的,不同於人類語言的多樣性根源於歷史文化和地域的區別,計算機語言則是在編寫程序時面向不同的需求而開發。因此,自然語言與計算機語言承載的內涵是不同的。從根本上講,自然語言體現的心智與計算機語言表達的心智是有所不同的。

人工智能会说“外语”吗?——自然语言与计算机语言刍议

自然語言與心智

如果說自然語言是人類表達的工具和思維的媒介,那麼自然語言與心智的關係密不可分,在一定程度上,人對語言的使用能力是心智能力體現之一種。心智與智能不同,心智是智能的一部分,它泛指人的知覺、感覺、記憶、學習、理解、創新等能力。

心智能力包含了對自然語言的理解。日常生活中使用自然語言時,可以同時獲得關於描述對象的語音、形象以及內涵。我們在日常生活中,但凡聽到別人描述一件東西,或看到別人指著一個對象有所稱謂,那麼我們就記住了這東西叫什麼,往後要再指稱那件東西時,就講出同樣的詞彙。我們也能從別人的語音、動作、表情和眼神,乃至肢體動作、聲調口氣來體會到語句中的各種情緒與感受。也就是說,在自然語言中,語詞的意義並不侷限於單個詞的含義,它還包括了指稱對象的模樣,語音、講述者的意圖以及當時的語境。自然語言的涵義是在社會交往和對話中完全體現的,對這些涵義的全面把握,需要心智能力,反之也是對心智存在的印證。正如喬姆斯基所述:語詞構成句子的表層規則是語法,但句子的真正含義體現在深層結構上。深層結構是通過某些心智的操作而與表層結構相關聯的。也就是說,自然語言所有詞彙、聲音和意義之間的聯繫,是基於心智基礎上的語法結構。

再者,自然語言的學習也是心智能力的一個反映。以喬姆斯基為代表的心智主義者認為語言和語法結構是人類心智的本質和特徵。不管語言使用者在個體經驗和個人能力方面具有多大的不同,他們都會按照極為相似的方法完成語言理論系統的構造任務。我們的心智中先天就擁有認知結構和語言能力,在後天的運用中逐漸強化對語法規則的掌握。 “在某種基礎性的層面上,我們人類不是在學習語言,真實的情況是,語言在心智中自行成長。”

有別於喬姆斯基,哲學家蒯因的語言理論是基於經驗主義與行為主義的立場。他既反對徹底的經驗主義還原論也反對純粹的先驗知識,他認為語言之所以能表達含義,是依賴於行為習得的,人們在語言行為中體現出的心智能力也是逐步後天習得的。掌握並使用語言的心智能力是後天的並且可以通過訓練得到強化的。在蒯因看來,我們掌握語言的能力來自於公共知識,是一種人類共同經驗知識背景的傳承,而非先驗的存在:“即使我們要談論某種獨特的感官覺知的品質,多半也要求助於公共物體,桔子的顏色,臭雞蛋的味道,諸如此類。要持續通達以往的感覺資料,同樣也靠了指涉物體。我們固然應當好好探究關於物體的日常話語背後的感官覺知、感覺刺激,但這些是概念成形或語言的背景,而不是它們的下層結構。”

如果按照喬姆斯基的理論,那麼我們賦予一臺智能計算機的初始內在,可以算作它的先天“心智”,當然這樣的心智是人給予的並且是不完全的。如果按照蒯因的理論,計算機在被構造的前提下,已經獲得了知識背景,並且能在學習中不斷強化語言能力,這似乎意味著它有可能在強化學習中獲得真正的智能,包括與人同等水平的語言智能。

機器語言與心智

在人工智能著名的圖靈測試中,如果一個人能夠與一臺機器進行一次足夠長的對話,假如對話人不能分辨回答是來自一臺機器或者一個人,那麼就判定這臺機器就是擁有智能的。可見,圖靈設想中的智能計算機主要能力就是對語言的理解和運用能力。測試將機器擁有智能定義為幾個方面:機器要能回答輸入文本的問題;能夠對語詞進行含義解釋;能夠理解語詞組成的句子;能夠把一種語言翻譯為另一種語言。語言能力是判斷計算機是否擁有智能的重要標準。甚至可以說,從圖靈測試的機制看來,語言能力可以等同為智能。

如果智能必然要掌握語言能力,如前所述,人類使用的自然語言雖有模糊不清和歧義難解的內容,表達力確是強於形式化語言的。計算機如果要具備真正的智能,必須要具備在不同語境中理解自然語言的能力。然而這一能力在現有的技術中幾乎是辦不到的。德雷福斯在《計算機不能做什麼》一書中提到,機器要獲得智能,要解決困難問題之一即語言中的歧義問題。雖然現在已有強化匹配搜索和大數據的支持,自然語言的歧義問題表面上得到了部分解決。但是如果參照我們人類使用自然語言的方式,真正理解並能使用一門語言,除了需要掌握必要的推理規則(包括專家知識推理和常識推理),還要具備上下文環境的理解與領悟能力。有了這樣的能力,才算是具有心智,擁有智能。

在討論機器智能與心智時,很多研究者都希望從人類智能的產生和結構中獲得啟示。從簡單發育到複雜思考,人的智能看似有規律可循,但如果仔細考慮,即使是最簡單、最初級的智能,都涉及千萬腦細胞、肌肉細胞的大範圍共同協作。這些簡單的行為內嵌了太多智能,都是日常講話和行為中未曾意識到的深層心智能力。語言智能作為其中的一種,如果考慮語言機制的來源以及語言機制在人類智力突然質變的過程中所承擔的角色時,至少兩個基本的問題就會出現:第一,最小的承載意義的元素的核心語義內容,包括形式最為簡單的元素。第二,允准符號進行無限制組合的原則。如果希望通過分層漸進地剖析人類心智產生的生理結構和邏輯結構,從而嘗試在模仿這種結構中賦予機器以心智。那就必然會面臨兩個困境:一是人的大腦就是一個不可能完全掌握的黑箱;二是心智作為一個沒有實體但確實有的存在,對技術而言是不可捉摸的存在。

就心智主義的立場而言,計算機是不可能擁有與人類同等的心智能力的,儘管它可以隨著技術發展獲得更加精細準確的自然語言處理技術,在操作執行中表現得能夠聽懂自然語言的一切指令。從行為主義的立場來講,如果一臺機器表面具備了同人類一樣的語言能力,能夠理解並表達自然語言,似乎可以認為它是具有心智的機器。然而,自然語言和形式化語言互相轉換中不可避免的問題,也預示了由行為主義出發的模仿不可能完全與人一樣。

結論

隨著技術的發展,計算機可處理的自然語言文本數量一直增長,面向海量信息的文本挖掘、信息提取、跨語言信息處理、人機交互等應用需求下,計算機的自然語言處理研究也在不斷推進。然而,自然語言在描述和表達中,具有指向性、邏輯性,傳遞並承載了文化。這也就意味著,自然語言不僅是一些語詞符號的組合,和形式化的語言不同,自然語言雖然也在一定的邏輯語法下使用,具有溝通、交流、表達、創造等功能,但語言還具有文化屬性,一種語言的習得不僅是會使用其中的語詞和語法規則,還包括了對一種文化的理解和認同。在這個層面上,現有的智能機器無論對自然語言的處理做到何種程度,都尚未擁有真正的智能。因此,我們可以將語言的正常使用作為證明其他生物具有與我們相同心智的極其明確的經驗性證據,但不能作為心智與人類能力的來源的判別性證據。

笛卡爾講“語言是人類思維的核心標誌”,意即語言能力和人的思維能力密不可分並且語言能力是人類心智的表徵。他還提出:人類心智的兩個重要能力,理解力和意志,是機器(自動機)無法實現的。因為心智沒有實體,自動機無論如何模仿表層結構,都不可能創造出心智。笛卡爾的預言在今天看來雖然缺乏論證完整性,結論依然正確。語言的使用表達和創造是人類智能的重要內容,如果未來的智能機器將擁有同人類一樣甚至更強的智能,那麼它必然掌握了人類語言能力同等的理解運用能力。這在現有的計算機語言層面是做不到的。而至於未來機器能否籍由新的突破性的技術學會“外語”,那又是另一個問題了。

參考文獻:

德雷福斯. 計算機不能做什麼: 人工智能的極限[M]. 三聯書店,1986.

諾姆·喬姆斯基. 語言與心智[M]. 中國人民大學出版社,2015.

諾姆·喬姆斯基. 喬姆斯基語言哲學文選[M]. 商務印書館,1992.

諾姆·喬姆斯基. 句法理論的若干問題[M]. 中國社會科學出版社,1986.

蒯因.語詞和對象[M]. 中國人民大學出版社,2012.

維特根斯坦.哲學研究[M].商務印書館,2000.

弗雷格.弗雷格哲學論著選輯[M].商務印書館,2006.


分享到:


相關文章: