06.12 “機器不學習”:人工智能突破的關鍵是“遺忘”

編者按:人工智能越來越頻繁地出現在人們的生活中,而其技術上的重大進步仍然不曾明朗。本文作者Natalie Fratto在“Machine Un-Learning: Why Forgetting Might Be the Key to AI”一文中講述了實現人工智能戰略性遺忘的三個方法。

讓我們先直面那些事情一團糟的情況。你不記得自己把鑰匙放在了哪裡,你不記得剛剛在雜貨店遇到的同事的名字因而只能磕磕絆絆地說著話,這都令你異常沮喪。然而,遺忘是人類得以生存的核心。事實上,我們必須對自己有能力做到這一點感到幸運。

對於人類來說,遺忘不僅僅意味著記憶的遺失,也意味著這也是一個幫助大腦吸收新知識並有效做出決策的積極過程。

現在,數據科學家正在應用神經科學原理改進機器學習技術,他們相信人類的大腦是完全揭開人工智能面紗的關鍵。

***

根據最近發表在《神經元》(Neuron)雜誌上的一篇論文所言,人們的大腦充當著信息過濾器的角色。它能輸入一大堆亂七八糟的數據,再過濾出有用的數據,然後清除所有無關的細節,從而使人們能夠成功講述一個故事或者是做出決定。這種刪除未使用信息,以便為接受新信息騰出空間的行為,就如同清理計算機上的磁盤空間。用神經生物學術語表示,當神經元之間的連接隨著時間的推移變得減弱甚至是消失時,遺忘就會發生,而隨著新神經元的出現,它們會重新連接海馬體的迴路並覆蓋現有記憶。

對於人類來說,遺忘的發生帶來兩個好處:

  1. 它通過減少過時信息對人們產生的影響來提高決策靈活性。

  2. 它能夠預防人們過度沉浸於某些過去的特定事件,提高適應能力。

人們為了有效適應發展,必須具備戰略性遺忘的能力。

但是電腦又能如何呢?

這即是人工智能所面臨的最大挑戰之一,計算機的遺忘邏輯與人類的情況不同。深度神經網絡是一系列機器學習任務中完成度最高的技術,但是它不會像人們那樣去遺忘。

舉個簡單的例子,如果你要教一個會說英語的孩子學習西班牙語,那麼他會將學習英語過程中的相關經驗應用到學習西班牙語的過程中,這有可能是名詞、動詞時態和句子結構等,同時忽略掉那些不相關的部分,比如口音、晦澀詞語和語調等。孩子們可以基於戰略性遺忘策略不斷地學習與重建。

神經網絡的邏輯與此不同,如果一個神經網絡被訓練學習英語,那麼其會通過調用參數解決英語問題。如果你想教它學習西班牙語,那麼神經網絡對於西班牙語的認知就會覆蓋掉之前為英語學習所儲備的知識,有效清空所有內容並從零開始。我們將其稱為“災難性遺忘”,“這是神經網絡所面臨的基本侷限之一。”

攻克這一侷限是一個全新領域,但是科學家已經在關於如何克服這種侷限性所涉及的潛在理論的探索上取得了長足的進步。

人工智能學會戰略性遺忘:三種方法

#1. 長短期記憶網絡(LSTM,Long Short Term Memory Networks)

長短期記憶網絡是一種遞歸式神經網絡,它通過特定的學習機制決定在什麼時候記住哪些信息,更新哪些信息,注意哪些信息。

用電影類比來解釋長短期記憶網絡工作的邏輯十分簡單易懂。想象這麼一種場景,一臺電腦通過分析之前的場景來預測電影接下來會發生什麼。在某個場景中,一個女人拿著一把刀,電腦會猜她是廚師還是殺人犯?在另一個場景中,這個女人在一個金色拱門下面同一個男人一起吃著壽司,他們是在日本還是在麥當勞?或者是能確定他們在聖路易斯?

這的確非常難以預測。

長短期記憶網絡則在這一過程中幫助神經網絡實現1)遺忘/記憶,2)保存,3)聚焦。

1. 遺忘/記憶:“例如,在一個場景結束後,模型應該忘記當前的位置信息、時間信息,並重置任何有關場景的特定信息。但是,如果某個角色在某個場景中死去了,那麼它需要記住這個人已經不再會出現。因此,我們希望模型能夠學習一種單獨的遺忘/記憶機制:當新的信息出現時,它需要知道哪些信息需要保留而哪些信息需要丟棄。”

2. 保存:當模型看到一個新圖像時,它需要了解這個圖像的信息是否值得使用和保存。如果某個場景中一個女人走過了一個廣告牌,是記住這個廣告牌,還是僅僅將其視為冗餘?

3. 聚集:模型需要記住電影中的這位女性是一個母親,因為之後的場景會出現她孩子的畫面。但是如果在某個場景中女人並沒有出現,那麼這一信息就顯得不甚重要,所以在這個場景中模型不需要關注這一信息。同樣,並非所有存儲在神經網絡長期記憶中的東西每一次都會發揮直接相關的作用。因此,長短期記憶網絡需要幫助確定模型在某個特定時間需要關注哪些部分,同時將所有信息妥善保管。

#2. 彈性權重固化(EWC,Elastic Weight Consolidation)

彈性權重固化是谷歌旗下DeepMind的研究人員於2017年3月創建的一種算法,該算法模擬了一種叫做“突觸整合”的神經科學過程。在突觸整合過程中,人們的大腦會進行任務評估,計算眾多用於執行任務的神經元的重要性,並確認一些神經元所扮演的重要角色使其對正確執行任務發揮更加重要的作用。這些關鍵性神經元被標記上重要程度並使其在後續任務中被覆蓋的幾率減小。在神經網絡中也有多個如神經元的連接用於執行任務。彈性權重固化將某些連接編碼標註上關鍵性,從而保護其不被過度寫入遺忘/記憶程序。

#3. 瓶頸理論(Bottleneck Theory)

2017年秋天,在人工智能社區的一次演講中,來自耶路撒冷希伯來大學的計算機科學家與神經學家納夫塔利·提斯比講述了其稱之為“瓶頸理論”的觀點。“其思想是,一個網絡會排除掉那些無關重要的嘈雜的輸入數據,這就如同通過瓶頸向其中壓縮信息,只保留與一般概念最相關的特性。”

正如提斯比所解釋的那樣,神經網絡在學習過程中需要經歷兩個階段,擬合與壓縮。在擬合過程中,網絡對其訓練數據進行標記。而在更為複雜的壓縮過程中,其“將基於標記的數據信息只追蹤那些具備巨大特徵的信息。”而這一過程對於之後的概化過程極為重要。在此過程中,壓縮是一種策略上的遺忘方式,人工智能研究人員可以在未來用其構建更強大的神經網絡和框架。

正如提斯比所言,“學習過程中最重要的環節是遺忘。”

人類的大腦可能蘊藏著創造強大人工智能的圖解,而如今科學家們仍然停留在如何解讀這些可能的層面。

原文鏈接:https://hackernoon.com/machine-un-learning-why-forgetting-might-be-the-key-to-ai-406445177a80


分享到:


相關文章: