2018-08-10 10:07:47 造就

一些神經科學家喜歡用預測編碼理論，去解釋大腦的運作機制，該理論將感知看成是“受控的幻覺”。預測編碼強調的是大腦對現實的預期和預測，而不是大腦所接收的直接感官證據。

今年6月，人工智能公司DeepMind發佈了新的軟件，它可以基於單張圖片（內容是一個虛擬空間擺放著幾個物體），在沒有人類指導的情況下，從全新的視角推斷出三維場景會是什麼樣子。在饋入少數幾張這樣的圖片之後，這個被稱為“生成查詢網絡”（GQN）的系統，就可以成功建模出電子遊戲式的簡單迷宮佈局。

一些神經科學家喜歡用預測編碼理論，去解釋大腦的運作機制，該理論將感知看成是“受控的幻覺”。預測編碼強調的是大腦對現實的預期和預測，而不是大腦所接收的直接感官證據。

GQN顯然擁有很多技術上的用途，但它也引起了神經科學家的注意，他們對GQN用來學習如何執行任務的訓練算法特別感興趣。通過給定的圖像，GQN便能預測出場景——物體應該擺放在什麼位置，它們的陰影應該如何投射在地面上，基於特定的視角，哪些區域應該可見或被隱藏起來——然後，利用預測與實際觀察結果之間的差異，來提升今後預測的準確性。“正是由於現實與預測之間的差異，才促成了模型的升級。”GQN項目的領導者之一阿里·伊斯拉米（Ali Eslami）說。

伊斯拉米的論文合著者、同在DeepMind工作的達尼洛·雷森德（Danilo Rezende）說，“算法會修改（預測）模型的參數，這樣等下一次遇到相同的情況時，它就不會那麼驚訝了。”

長久以來，神經科學家一直猜測，驅動大腦運作的是一種與此類似的機制。根據這種“預測編碼”理論，在認知過程的各個層級上，大腦都會生成一種模型或是想法，來判斷它應該從下一個層級接收什麼樣的信息。這些想法又會轉化成一種預測，來判斷在特定情況下應該獲得何種經歷，同時為現實中發生的事情提供最佳解釋，從而使得對於這種經歷的判斷具有說服力。然後，這些預測會作為反饋，向下發送到大腦的低層感官區域。大腦會把預測拿來跟它實際接收的感官輸入信息進行比較，對其中的差異或預測誤差做出“解釋”，也就是使用內部模型，來確定導致差異的潛在原因。（例如，我們可能擁有一個關於桌子的內部模型，即四條腿撐起一個平面，但即便一張桌子有一半被其他東西遮蔽起來，我們仍然能夠認出它是桌子。）

對於一組色塊的二維圖像（左），GQN的人工智能可以推斷出它們在空間中的三維排列方式（右）。該系統所依賴的基礎，同樣也支撐著預測編碼這一神經科學理論。

至於那些無法被解釋的預測誤差，則會通過連接，被傳送到更高層級（作為“前饋”信號，而不是反饋），在那裡，系統會給予關注，並做出相應處理。“現在大家關注的是調整內部模型，調整大腦動態，以此抑制預測誤差。”倫敦大學學院的卡爾·弗里斯頓（Karl Friston）說道，他是一位知名的神經科學家，也是預測編碼假說的先驅之一。

過去十年中，認知科學家、哲學家和心理學家把預測編碼當成一種令人信服的想法，尤其是用於描述感知的運作機制，但他們也把預測編碼視為一種更全面、甚至無所不包的理論，認為它描述了整個大腦所做的事情。直到近年，我們才掌握了必要的實驗工具，可以開始直接測試該假說的具體機制。此外，過去兩年間發表的一些論文也為預測編碼理論提供了有力的證據。儘管如此，這種理論仍然存在爭議，而最近的一場辯論或許提供了最好的證明。辯論的焦點在於，一些具有里程碑意義的實驗結果是否可以被複制。

咖啡、奶油和狗

“我喝咖啡喜歡加奶油和____。”在這句話的空白處填上“糖”，似乎是理所當然的。在加州大學聖迭戈分校的認知科學家馬塔·庫塔斯（Marta Kutas）和斯蒂芬·希利亞德（Steven Hillyard）1980年進行的一系列實驗中，他們正是期望受試者出現這種本能反應。他們在屏幕上逐個詞語地把上面這句話呈現給受試者，同時記錄下他們的腦部活動。只不過，最後出現的詞語不是“糖”，最後組成的句子是：“我喝咖啡喜歡加奶油和狗。”

當受試者看到意料之外的詞語“狗”時，研究人員觀察到他們的大腦出現了更強烈的反應。這是一種特定模式的生物電活動，它們在詞語出現大約400毫秒後達到了峰值，因而被稱為“N400效應”。大腦做出反應是因為這個詞放在句子中毫無意義嗎？或者，僅僅是因為這個詞出現得很意外，違反了大腦的預期？

“不同的腦區會進行不同類型的預測。”

2005年，庫塔斯和她的團隊進行了另一項研究，結果表明，後一種猜想是對的。

受試者同樣會閱讀逐詞出現在屏幕上的語句：“這一天微風陣陣，所以男孩跑到戶外去放____。”因為補完這句話的最合適詞語是“風箏”（a kite），所以，受試者預期看到的下一個單詞是不定冠詞“a”。它沒有內在意義，但的確預示了下一個單詞是什麼。結果，當受試者看到後面出現的單詞是“an”時，他們出現了N400效應，這似乎是因為大腦必須處理預期與現實之間的不匹配。而這種效應顯然跟詞語的含義或者處理刺激時的難度無關。

2005年的研究發現似乎非常契合預測編碼的理論框架，但今年4月，一篇發表在學術期刊《eLife》上的論文稱，有好幾個實驗室都無法重複這一實驗結果。如今，其他研究人員開始做出回應，一些人聲稱，重複實驗得到的結果仍然可以為預測編碼理論提供支持。

這種你來我往反映了預測編碼理論引發的很大一部分爭論。對於庫塔斯所做的這類實驗，研究人員可以做出多種解釋。實驗結果除了可以用預測編碼來解釋，也可以用模型來解釋，而且它們缺乏足以證明假說的確鑿證據，因為它們沒有深入研究實際發揮作用的機制。雖然認為大腦會不斷做出推斷（並將推斷結果與現實進行比較）的觀點目前已經相當完善，但預測編碼的支持者一直在設法證明，他們所主張的理論才是正確的，而且可以推及所有的認知機制。

貝葉斯腦與高效計算

大腦在不斷地做出預測並對自己的預測進行評估，這一基本觀點一開始並未得到大多數人的認可。20世紀的主流神經科學理論將大腦功能描述為一個特徵檢測器：它會記錄刺激，對刺激做出處理，然後發出信號，以產生一個行為反應。特定細胞中的活動反映了真實世界中的刺激是存在，還是不存在。例如，視覺皮層中的一些神經元能夠對視野中物體的邊緣產生反應；另一些神經元則會通過激發來指示物體的方位、顏色或陰影分佈。

然而，事實證明，這個過程遠非看上去那麼簡單。研究人員通過進一步的測試發現，當大腦在感知一條越來越長的線時，即使線本身沒有從視野中消失，用於探測線的神經元也會停止激發。事實上，很多信息似乎是通過神秘的自上而下式反饋連接進行傳遞的，這表明，還有其他機制在發揮作用。

“如果大腦是一部推理機器，是一個統計器官，那麼當它犯錯時，也會犯跟統計學家一樣的錯誤。”

——倫敦大學學院卡爾·弗里斯頓

這就是“貝葉斯腦”（Bayesian brain）發揮作用的地方了，這是一個可追溯至19世紀60年代的通用框架，它徹底顛覆了傳統模型。該理論提出，大腦會基於內部模型，對現實世界進行概率推斷，主要是圍繞如何解讀它所感知的東西，計算出一個“最佳猜測”（這符合貝葉斯統計學定理，也就是基於從先驗經驗中獲得的相關信息，去量化事件的概率）。大腦並不是等待感官信息來推動認知，而是始終在積極構建關於世界的各種假設，然後利用它們來解釋現實經歷，並填補缺失的數據。根據一些專家的說法，正因為此，我們或許可以把感知視為一種“受控的幻覺”。

順著這個思路，貝葉斯腦也解釋了為什麼我們會產生視力錯覺：例如屏幕上兩個點在快速地交替閃爍，看上去就像一個點在來回移動，於是我們的大腦會在無意識中把它們看成一個點。理解物體如何移動是一種更高層級的知識，但這從根本上影響了我們的感知方式。大腦會填補信息的空白——在這個例子中，就是運動信息的空白——從而繪製出一幅並不完全準確的圖景。

在這個著名的視力錯覺實驗中，棋盤上A格的顏色看上去比B格深得多，但其實，它們的灰度是一樣的。我們的大腦會利用附近格子的顏色，以及圓柱體所投射陰影的位置，來推斷棋盤的顏色。在這個例子中，這些推斷讓我們感知到，A格和B格的灰度不一樣，儘管它們完全相同。（如右圖所示，如果把兩個格子連通起來，或是遮住圓柱體，我們便能更清楚地看出來。）

但是，儘管生成模型和各種預期在大腦功能中發揮著明確的作用，科學家依然未能確定它們是如何在神經迴路層級上得到實施的。“相對來說，貝葉斯腦也無法解釋底層機制究竟是什麼。”蘇格蘭愛丁堡大學的心理哲學教授馬克·斯佩瓦克（Mark Sprevak）說。

這時，預測編碼理論登場了。它提供了一種特定公式，解釋了大腦的運作如何能夠符合貝葉斯定理。預測編碼這個名稱源於一種能更有效傳輸電信信號的技術：由於視頻文件相鄰兩幀之間包含了大量信息冗餘，因此壓縮這些數據時，如果對每一個像素進行編碼，將非常低效。而如果我們對相鄰兩幀之間的差異進行編碼，然後通過反向處理來解讀整個視頻，那將更加合理。

1982年，科學家發現，這個想法可以應用到神經科學中，因為它似乎可以解釋，視網膜上的神經元是如何編碼有關視覺刺激的信息，並沿著視神經進行傳遞的。此外，研究人員還認為，預測編碼也是大腦獎勵系統在運作時所遵循的原理：多巴胺神經元會對預期獎勵與實際獎勵之間的不匹配程度進行編碼。研究人員表示，這些預測誤差可以幫助動物對未來預期進行修正，並推動它們的決策。

儘管有這些例子，科學家認為，預測編碼主要還是一種針對特定神經網絡的過程。不過，功能性磁共振成像（fMRI）測試和其他類型的實驗已開始改變這一觀點。

通用框架

預測編碼假說之所以如此受重視，原因之一在於它具有令人難以置信的解釋能力。“在這個理論框架下，許多事情都能得到解釋，這一點很有說服力。”愛丁堡大學邏輯學教授、預測編碼理論專家安迪·克拉克（Andy Clark）說。

首先，它在單個計算過程中統一了感知和運動控制。這兩者基本上是同一枚硬幣的兩面：不管是感知還是運動控制，大腦都會將預測誤差最小化，但會以不同的方式進行。就感知而論，調整的是內部模型；至於運動控制，調整的則是實際環境。（對於後者，你可以想象一下，自己想舉手。如果你的手沒有舉起，那麼這個差異會產生較大的預測誤差——如果這時你把手舉起來，便能將誤差最小化。）

迄今為止，研究人員在感知和運動控制方面進行的實驗，為預測編碼理論提供了最有力的證據。例如，在《神經科學雜誌》6月份發表的一篇論文中，研究人員先讓受試者看屏幕上的單詞“kick”，然後再讓他們聽經過處理的錄音，其中的單詞“pick”聽起來像大聲的耳語。許多人把“pick”聽成了“kick”，而fMRI掃描顯示，大腦在聽到單詞開頭的“k”和“p”時反應最強烈——它們是跟預測誤差有關的聲音。如果大腦只是在表徵其感知體驗，那麼最強烈的信號應該與“ick”對應（因為它才是同時出現在屏幕和音頻中的刺激）。

不過，研究人員也在努力擴大預測編碼在感知和運動控制之外的適用範圍，他們將其視為大腦中一切活動的“通用貨幣”。克拉克說，“這就像擁有了一堆積木，可以按照不同的方式來搭。”不同的腦區會進行不同類型的預測。

包括弗里斯頓在內的一些人聲稱，預測編碼適用於更高層級的認知過程，包括注意力和決策。研究人員最近在前額皮質上完成的計算工作表明，在工作記憶和目標導向行為中，同樣存在著預測編碼機制。一些研究人員建構了用預測編碼術語來表述情感和情緒的理論：情緒可以是大腦表徵的狀態，旨在將關於內部信號（例如體溫、心率或血壓）的預測誤差最小化。例如，如果大腦發現自己情緒激動，它會知道，所有那些信號指標都在上升。也許自我的概念就是這樣出現的。

數十年來，倫敦大學學院的神經科學家卡爾·弗里斯頓一直在完善預測編碼假說的關鍵原理。他指出，該理論不僅可以解釋感知，還可以解釋更高層級的認知過程。

以這種思路完成的大部分研究工作都有一個聚焦點：預測編碼如何能夠對神經精神病學和發育障礙做出解釋。弗里斯頓說，“這裡的想法是，如果大腦是一部推理機器，是一個統計器官，那麼當它犯錯時，也會犯跟統計學家一樣的錯誤。”也就是說，大腦可能因為太過重視或輕視預測或是預測誤差，而做出錯誤的推斷。

例如，自閉症或許可以被描述為：無法在大腦處理層級結構的最底層，忽略與感官信號相關的預測誤差。這可能造成患者對感覺的專注、對重複和可預測性的渴求、對特定幻覺的敏感，以及其他一些影響。在與幻覺有關的病症中，比如精神分裂症，情況可能正相反：大腦也許太過關注於自身對所發生事情的預測，卻忽視了與這些預測相矛盾的感官信息。（不過專家提醒說，自閉症和精神分裂症都非常複雜，無法簡化為單一的解釋或機制。）

耶魯大學醫學院的臨床神經科學家菲利普·科利特（Philip Corlett）說，“其中最重要的部分是向我們展示了，我們的心理功能是何其脆弱。”科利特正在開展一項實驗，在健康受試者的腦中建立新的“想法”，引導他們對之前經歷的刺激產生幻覺。（例如，研究人員讓受試者把某個聲音與某張視覺圖像聯繫起來，這樣，當受試者看到圖像時，即便沒有播放聲音，他們也會覺得自己聽到了聲音。）研究人員想弄明白，這些“想法”是如何轉化為感知的。通過這些研究，“已經有證據表明，感知與認知並不是那麼涇渭分明。”科利特說，“我們可以向你灌輸新的想法，而那可以改變你的感知。”

預測編碼假說的堅實證據

“實驗研究經常表明，一個特定的結果與預測處理理論是一致的，但並不是說，該理論就是實驗結果的最佳解釋。”斯佩瓦克說。這種理論在認知科學領域已被廣泛接受，但“在系統神經科學領域，它仍然處於弱勢。”瑞士弗里德里希•米舍爾生物醫學研究所的神經科學家格奧爾格·凱勒（Georg Keller）說。他的實驗室正試圖用更堅實的證據改變這種狀況。

弗里德里希·米舍爾生物醫學研究所的神經科學家格奧爾格·凱勒一直在為預測編碼假說尋找堅實證據。

在去年發表於《神經元》雜誌的一項研究中，凱勒及其同事觀察到，小鼠視覺系統中的神經元隨著時間的推移變得具有預測能力。這個發現其實一開始是個偶然。最初，研究人員利用電子遊戲來訓練小鼠，結果發現，虛擬世界的方向亂了套。通常，只要小鼠向左轉，它們就會看到自己的視野向右移動，反之亦然。然而，有人無意中翻轉了實驗中虛擬世界的方向，顛倒了左右，這樣，向左轉意味著小鼠的視野同樣向左移動。研究人員意識到，他們或許可以將錯就錯。他們監測了表徵這種視覺流動的小鼠大腦信號，結果發現，隨著小鼠重新掌握了倒置環境中的規則，大腦信號也慢慢發生了變化。“那些信號看起來是在預測視覺會向左流動。”凱勒說。

如果信號只是小鼠視覺體驗的感官表徵，那麼，它們應該馬上在虛擬世界中出現翻轉。如果它們屬於運動信號，那就根本不會翻轉。相反，“它在於識別預測。”凱勒說，“是在做出某個動作時，對視覺流動的預測。”

“這項研究提供了一種此前並不存在的證據。”克拉克說，“這是一種非常局部、逐單元和逐層的證明，即預測編碼理論是解釋這一切的最佳模型。”

“其中最重要的部分是向我們展示了，我們的心理功能是何其脆弱。”

——耶魯大學醫學院菲利普·科利特

大約在同一時間，另一組研究人員在獼猴用於處理面孔的腦區中，也有了類似發現。之前的研究已經表明，神經網絡中較低層級的神經元，是對面孔基於方位的要素進行編碼的，例如，神經元看到側臉輪廓後開始激發。在更高的層級上，神經元會以更抽象的方式來表徵面孔，比如，關注面孔所代表的身份，而不是它的位置。在獼猴研究中，研究人員用成對的面孔對猴子進行訓練，其中一張面孔會首先出現，而它總會包含對第二張面孔的某種預測。之後，研究人員用特定的方式去幹擾這些預期，比如，從不同角度展示同一張面孔，或是展示一張完全不同的面孔。結果，他們在面部處理神經網絡的較低層級區域中，發現了預測誤差，但這些誤差與方位預測無關，而與身份預測有關。也就是說，誤差源於系統較高層級中發生的事情——這表明，較低層級通過對比感知與來自較高層級的預測，得出了錯誤的信號。

“在那個系統中發現預測誤差，發現預測的具體內容，這非常令人興奮。”該研究論文首席作者、歐洲神經科學研究所的神經科學家卡斯帕·施維德里克（Caspar Schwiedrzik）說。

馬克斯·普朗克經驗美學研究所的研究員露西亞·梅洛尼（Lucia Melloni）表示，她的團隊在人類受試者的神經元數據中，看到了與預測誤差理論一致的結果。

尋找更多的預測機器

並不是每個人都認為，預測編碼理論的論據在逐漸增多。在有些科學家看來，該理論雖可以解釋認知的某些方面，但無法解釋一切。另一些人甚至連前者也不承認。對紐約大學心理學教授大衛·海格（David Heeger）來說，區分“預測編碼”和“預測處理”是非常重要的，前者是關於高效地傳輸信息，而後者則被他定義為一步步做出預測的過程。“文獻中存在很多混淆之處，因為人們認為這些東西都屬於同一類別。”他說，“事實不一定如此，這也不一定是研究它的最佳方式。”例如，在某些情況下，其他類型的貝葉斯模型可以提供關於大腦功能的更為準確的描述。

“這項研究提供了一種此前並不存在的證據。這是一種非常局部、逐單元和逐層的證明，即預測編碼理論是解釋這一切的最佳模型。”

——愛丁堡大學安迪·克拉克

不過，該領域的很多專家都認為，這項研究有可能在機器學習領域催生出令人興奮的應用。目前，絕大多數人工智能研究都沒有涉及預測編碼，而是聚焦於其他類型的算法。

但弗里斯頓認為，在深度學習環境中建立預測編碼架構，可以讓機器更接近智能。

DeepMind的GQN就是發掘這種潛力的絕佳例證。去年，薩塞克斯大學的研究人員甚至使用虛擬現實以及具備預測編碼功能的人工智能技術，打造出所謂的“幻覺機器”，它可以模擬出通常由迷幻藥引起的幻覺狀態。

通過比較預測編碼模型和其他技術模型的表現，我們可以利用機器學習領域的進步，獲得有關大腦的新見解。至少，把預測編碼引入人工智能系統，或許能顯著提高這些機器的智能水平。

但在那之前，我們還有很多工作要做。科學家要深入研究，找到一系列問題的答案，比如確定大腦的內部表徵處在什麼位置。另外，類似的實驗能否證實更高層級認知過程中的預測編碼機制，這也有待觀察。

預測編碼“之於神經科學的重要性，就猶如進化論之於生物學。”格拉斯哥大學神經生理學家拉爾斯·穆克里（Lars Muckli）說道，他為預測編碼理論做了大量工作。但就目前來說，斯佩瓦克指出，“一切尚無定論。”

翻譯：何無魚

校對：李莉

來源：Quanta Magazine