反思機器學習與人類語言習得的關係

  探索人類怎樣習得自己的語言,在語言學及相鄰領域一直都是非常吸引人的研究課題,被國內外研究者冠以“柏拉圖問題”之稱。從20世紀行為主義統領的心理學理論,到皮亞傑的認知發展理論、喬姆斯基的語言內在論,以及當前興起的機器學習探索,對解答人類怎樣習得語言這一問題各有不同的見解。這一差別使得語言學、心理學、語言哲學等領域中的相關研究走上不同的發展道路,也促使我們反思當前快速推進的機器學習研究對語言習得研究有何啟示與教訓。

  強化學習以試錯搜索和延遲獎勵為特點

  一般來說,根據學習過程中的不同側重點,如怎樣處理輸入數據與算法,機器學習有不同分類。若以與語言習得密切相關的學習方式為基準,可分為監督學習、無監督學習以及強化學習。三者之中,強化學習與20世紀中期風靡於心理學和語言習得領域的行為主義密切相關,引起的關注更多。


反思機器學習與人類語言習得的關係


  強化學習的創立者之一理查德·薩頓認為,強化學習即學會怎樣將環境與行為映射起來,以最大化獎勵信號(強化信號)。根據可能獲得的獎勵期望,做出影響行為的決策。在與環境的交互過程中,學習者並不知曉應採取哪些行動,必須通過不斷的嘗試歸納出哪種行為可獲得最大獎勵。因此,試錯搜索是強化學習的顯著特點之一。因為掌握有用信息可以獲得最大的獎勵期望,做出有利的決策。此外,在特定情況下,某些行為不僅影響直接的獎勵,而且影響下一環節以及由此產生的所有後續獎勵,延遲獎勵由此成為強化學習的另一突出特點。可見,就如人工智能研究專家戴密斯·哈薩比斯最近在《自然》雜誌上闡釋的那樣,整個交互過程包括行為、獎勵期望與決策三個步驟。

  人類學習語言是一個演繹性過程

  以行為主義為主導的語言學習理論認為,語言學習是學習者對外界刺激作出反應的結果。據此,語言環境和刺激強化對語言學習起著決定性的作用。這是因為,人腦能對外界語言刺激形成記憶,從而掌握語言。如上所述,強化學習的基本理念是使用獎勵期待(類似刺激)強化正確的行為。此外,當獎勵預測誤差趨近於零時,強化學習達到最優狀態。在此意義上,強化學習也可以說是通過試錯,歸納得出最小化的預測誤差。更引人注目的是,哈薩比斯等最近在《自然》雜誌上嘗試以強化學習算法闡釋人腦學習過程時指出,人工智能視角下的分佈式強化學習,似乎可以依靠多巴胺這類能夠促進實現獎勵預期的神經遞質,在人腦中實現。簡而言之,如果行為達到獎勵預期,獲得正向的多巴胺信號,則促成正確的學習決策。

  然而,人類學習語言就如喬姆斯基語言習得理論主張的那樣,是一個演繹性過程。學習者在學習語言結構時提出某種假說,然後依據原始語言數據輸入進行假設檢驗,修正或證實有關目標語言結構的假說,完成語言習得。這一過程看似與強化學習中的試錯歸納學習有類似之處,但它是對先前假說的驗證過程,而非歸納學習過程。尤其對於兒童獲得母語而言,類比歸納學習是否奏效一直受到質疑,而從內在語言機制生物性成熟的角度解釋語言習得,則得到了更多神經生物以及經驗研究的證實。

  但這並沒有具體說明兒童快速習得母語的具體過程。換句話說,語言本身作為一個非常複雜的自足系統,有關這一複雜系統的習得理論,必須嚴肅闡釋兒童怎樣快速、一致地獲得諸如結構層級性之類的語言本體屬性。雖然多巴胺此類神經遞質在語言習得過程中的確促成相關神經實現,但這只是語言習得的神經生物基礎的具體表現。更重要的問題是,怎樣立足語言的神經生物基礎妥當解答語言習得的具體過程。

  再次,雖然強化學習亦有從心理學角度考察語言學習的過程,但人腦有限的計算加工能力是否能夠像機器及其算法模型一樣,具有超高的容量與超強的計算能力,是值得仔細斟酌的。從有關大腦的神經生物屬性研究來看,人腦的認知計算加工能力遠不及機器。因此,人類語言學習與基於算法的機器學習之間的區別一時難以消弭。

  互學互鑑是可行的

  探索語言習得過程涉及多學科的協同作用。這種學科之間的互促互鑑正是認知科學興起的原因所在。強化學習對語言習得問題的解讀,兼具計算機科學、神經科學以及心理學等學科交叉的特點。以喬姆斯基語言習得理論為基礎的語言習得探究,則通過整合語言哲學、語言學、神經科學、生物學以及心理學等展開。可見,兩者互學互鑑具有天然的可能性。

  眾所周知,強化學習需要大量的數據訓練才能達成任務,而兒童快速、一致地獲得語言似乎不需要大量語言訓練,相反,面對的是刺激貧乏的事實。即使是成人習得母語之外的語言,除需要努力記憶詞彙之外,也可以在沒有大量訓練的情況下掌握語法等。語言學習依靠的主要是內在語言機制。這就表明,在機器學習研究初期遭遇的質疑似乎仍未得到有效的解決:依靠大量算法訓練的強化學習可能與人類學習語言有本質的區別。即使在當前算法技術快速發展的情況下,如情景記憶與元學習技術的開發,這種區別似乎並沒有得到實質性的突破。如同某些機器學習研究者調侃的一樣,使用模型學習人類語言,驅動學習的算法往往只學會做一個復讀機。鑑於此,這兩種性質不同的學習在當前人工智能技術的快速發展中,是可以互學互鑑,並共同促進對“柏拉圖問題”的探討。

  首先,這兩種理論都支持語言學習是基於神經生物基礎實現的。儘管強化學習認同刺激—反應式的語言學習理念,但也接受語言學習依靠大腦神經生物屬性實現這一共識。為獲得理想的獎勵期待,神經細胞釋放多巴胺推進相應神經活動。這一過程說明學習的確具有神經生物基礎,因而就與喬姆斯基語言習得理論重點挖掘大腦神經生物屬性對語言習得的影響不謀而合。在當前最簡方案生物語言學研究範式下,語言習得研究的核心就變為探討怎樣習得由大腦神經生物屬性決定的基本語言屬性。

  雖然內在基本語言屬性是語言習得展開的基礎,但語言學習需要在實際環境中進行,因為語言系統的建構與熟練掌握需要語言加工運算將基本語言屬性盤活、固化在相應大腦模塊之中。因此,這一過程就與強化學習著力開發的算法相關。此類算法類似語言學習者依靠語言加工運算掌握語言結構,熟稔語言技能。可見,強化學習與主流語言習得理論的主要區別在於,是否預設語言學習需要某些由生物基因屬性決定的既定基本語言屬性。在語言加工上可以互學互鑑,甚至探索類似的算法,如上文提到的當前人工智能領域中出現的兩種很有前景的技術——情景學習與元學習,儘管在具體算法實現上存在人腦與機器腦的差別。

  總之,正如哈薩比斯等認為多巴胺能夠激勵獎勵期望與促成學習決策一樣,主流語言習得理論也一貫認為語言習得或語言本身具有堅實的神經生物基礎。而且,強化學習在算法開發上的經驗,有助於當前主流語言習得理論深入探究語言學習者在多大程度上通過熟稔語言計算加工來掌握語言。在此意義上,強化學習與主流語言習得研究範式是一個連續統,有著互鑑的可行性。這在一定程度上昭示著機器學習與主流語言習得理論各自未來的努力方向。

  (作者單位:蘇州大學外國語學院)


分享到:


相關文章: