MIT等人工神經網絡評分系統,DenseNet實力奪冠!

人工神經網絡的終極目標應當是能夠完全模擬生物神經網絡。而隨著ANN的不斷髮展,已然呈現出了許多性能優秀的模型。由MIT、NYU、斯坦福等眾多著名大學研究人員組成的團隊,便提出了brain-score系統,對當今主流的人工神經網絡進行評分排名。本文便帶讀者瞭解一下在眾多人工神經網絡中,最為貼近生物神網絡的那些ANN。

人工神經網絡(ANN)總是會與大腦做比較。

雖然ANN發展到現在也無法完全模擬生物大腦,但是技術是一直在進步的。那麼問題來了:

論與生物大腦的相似性,哪家人工神經網絡最強?

在功能方面與大腦最相似的神經網絡,將包含與大腦最近似的機制。因此,MIT、NYU、斯坦福等眾多知名大學聯手開發了“大腦評分”(brain - score)。

這是一種綜合了多種神經和行為基準的測試方法,可以根據神經網絡與大腦核心對象識別機制的相似程度對其進行打分,並用這個方法對最先進的深層神經網絡進行評估。

使用該評分系統,得到的結果如下:

  • DenseNet- 169, CORnet-S和ResNet-101是最像大腦的ANN
  • 任何人工神經網絡都無法預測到神經和行為響應之間存在的變異性,這表明目前還沒有一個人工神經網絡模型能夠捕捉到所有相關的機制
  • 擴展之前的工作,我們發現ANN ImageNet性能的提高導致了大腦得分的提高。然而,相關性在ImageNet表現為70%時減弱,這表明需要神經科學的額外指導才能在捕獲大腦機制方面取得進一步進展
  • 比許多較小(即不那麼複雜)的ANN,比表現最好的ImageNet模型更像大腦,這意味著簡化ANN有可能更好地理解腹側流(ventral stream)。

大腦的基準

以下是對衡量模型基準的概述。基準由一組應用於特定實驗數據的指標組成,在這裡可以是神經記錄或行為測量。

神經(Neural)

神經度量的目的是確定源系統(例如,神經網絡模型)的內在表徵與目標系統(例如靈長類動物)中的內在表徵的匹配程度。 與典型的機器學習基準測試不同,這些指標提供了一種原則性的方式來優先選擇某些模型(即使它們的輸出相同)。 我們在此概述了一個常見的度量標準——神經預測性,它是線性迴歸的一種形式。

神經預測:圖像級神經一致性

神經預測性用於評估源系統(例如,深度ANN)中給定圖像的響應對目標系統中的響應(例如,視覺區域IT中的單個神經元響應)的預測程度。 作為輸入,該度量需要兩個刺激×神經元這種形式的集合,其中神經元可以是神經記錄或模型激活。

首先,使用線性變換將源神經元映射到每個目標神經元,這個映射過程是在多個刺激的訓練-測試分割上執行的。

在每次運行中,利用訓練圖像使權重適應於從源神經元映射到目標神經元,然後利用這些權重預測出的響應得到held-out圖像。

為了獲得每個神經元的神經預測性評分,通過計算Pearson相關係數,將預測的響應與測量的神經元響應進行比較。

計算所有單個神經類神經預測值的中位數(例如,在目標大腦區域測量的所有目標位置),以獲得該訓練-測試分割的預測得分(因為響應通常非正常地分佈,所以使用中值)。所有訓練-測試分割的平均值即目標大腦區域的最終神經預測得分。

神經記錄

目前這個版本的大腦評分中包含的兩個神經基準,其使用的神經數據集包括對88個V4神經元和168個IT神經元的2,560個自然刺激神經響應(如圖1):

MIT等人工神經網絡評分系統,DenseNet實力奪冠!

圖1 大腦評分概述使用兩類指標來比較神經網絡:神經指標將內部活動與macaque腹側流區域進行比較,行為指標比較輸出的相似性。對於小的、隨機組合的模型(灰點),大腦得分與ImageNet的性能相關,但是對於當前最先進的模型(綠點)來說,其性能在70%的前1級變得很弱。

該圖像集由2560張灰度圖像組成,分為八個對象類別(動物、船隻、汽車、椅子、人臉、水果、平面、桌子)。每個類別包含8個獨特的對象(例如,“face”類別有8張獨特的臉)。圖像集是通過在自然主義背景上粘貼一個3D對象模型生成的。在每個圖像中,隨機選擇對象的位置,姿勢和大小,以便為靈長類動物和機器創建具有挑戰性的物體識別任務。 每個圖像都使用了圓形掩模。

行為

行為基準的目的是在任何給定任務中計算源(例如,ANN模型)和目標(例如,人類或猴子)的行為響應之間的相似性。對於核心對象識別任務,靈長類動物(包括人類和猴子)表現出與ground-truth標籤不同的行為模式。因此,這裡的主要基準是一個行為響應模式度量,而不是一個全面的準確性度量。ANN能夠生成和預測靈長類動物的成功和失敗模式,因此可以獲得更高的分數。這樣做的一個結果是,達到100%準確率的ANN不會達到完美的行為相似性評分。

I2n:標準化的圖像級行為一致性

總量為i 的圖像數據源(模型特徵)首先使用可用的行為數據轉換為目標類別c和圖像ib的一個矩陣ib×c。

靈長類動物的行為數據

當前一輪基準測試中使用的行為數據是從Rajalingham等人與2015和2018年的研究論文中獲得的。這裡我們只關注人類行為數據,但是人類和非人類靈長類動物行為模式非常相似。

此數據收集中使用的圖像集與V4的圖像生成方式類似,並且使用了24個對象類別。數據集總共包含2,400個圖像(每個對象100個)。在這個基準測試中,我們使用了240張(每個物體10張)獲得最多試驗的圖像。1472名人類觀察者對亞馬遜土耳其機器人提供的圖像進行了簡短的響應。在每次試驗中,一幅圖像呈現100毫秒,然後是有兩個響應選擇,一個對應於圖像中出現的目標對象,另一個是其餘23個對象。參與者通過選擇圖像中呈現的對象來響應。因此,對於每一個target-distractor對兒,從多個參與者中共獲得了超過三十萬的響應。

大腦得分

為了評估一個模型整體表現的好壞,我們將神經V4預測得分、神經IT預測得分和行為I2n預測得分做一個組合計算來得到大腦評分。這裡給出的腦分數是這三個分數的平均值。這種方法不能通過不同的分數尺度進行標準化,因此它可能會懲罰低方差的分數,但它也不會對分數的顯著差異做出任何假設,這些差異會出現在排名中。

實驗結果

該團隊檢查了大量在ImageNet上訓練的深層神經網絡,並將它們的內在表徵與V4、IT和人類行為測量中的非人類視覺皮層區域的神經記錄進行了比較。

最先進的排名


MIT等人工神經網絡評分系統,DenseNet實力奪冠!


表1 總結了每個模型在大腦基準測試範圍內的得分

相對於ImageNet性能的大腦得分如圖1所示。在目前的基準測試中,最強的模型是DenseNet-169,其大腦得分為549,緊隨其後的是CORnet-S和ResNet-101,其大腦得分分別為544和542。 目前來自機器學習社區的ImageNet上的頂級模型都來自DenseNet和ResNet系列模型。 DenseNet-169和ResNet-101也是IT神經預測和行為預測性得分最高的模型之一,IT分數為0.604(DenseNet-169,圖層conv5_block16_concat)和行為得分為ResNet-101。

個人神經和行為基準的得分

以往的研究發現,分類性能較高的模型更容易預測神經數據。 在這裡,我們通過證明這種性能驅動的方法在廣泛的ImageNet性能體系中在多個深度神經網絡上進行評估時,廣泛意義上擴展了這項工作,但是在達到人類性能水平時未能產生與大腦完全匹配的網絡( 見圖1)。

在個人得分上,ImageNet的表現與大腦得分的相關性有很大的差異(圖2)。例如,V4單站點響應最好不僅是由VGG-19(ImageNet top-1性能71.10%)預測出來的,而且還有Xception(79.00%top-1)。 同樣,IT單站點響應最好是由DenseNet-169(.606; 75.90%top-1)預測出來的,但即使是BaseNets(.592; 47.64%top-1)和MobileNets(.590; 69.80%top-1)也是非常接近相同的IT神經預測評分。

MIT等人工神經網絡評分系統,DenseNet實力奪冠!


MIT等人工神經網絡評分系統,DenseNet實力奪冠!


圖2 所有模型對神經和行為基準的預測性

相比之下,ImageNet性能和行為預測性之間的相關性依然強勁,AlexNet(57.50%排名前1)或BaseNets的表現遠遠低於最佳模型。然而,行為得分上表現最好的模型並不是ImageNet上最先進的模型:ResNet-101在行為得分(.389)上排名最高,但是ImageNet排名前1的表現為77.37%。 PNASNet實現了更高的ImageNet性能(82.90%排名前1),但行為得分顯著降低(.351)。

事實上,ImageNet前1名錶現與行為評分之間的相關性似乎正在削弱,模型在ImageNet上表現良好,與行為得分幾乎沒有關聯,這表明通過繼續努力推動ImageNet,可能無法實現與行為數據更好的一致性。

我們使用神經預測性評估區域V4和IT以及使用I2n的行為記錄。 目前最好的型號是:V4上的VGG-19,IT上的DenseNet-169和行為上的ResNet-101。 值得注意的是,DenseNet-169,CORnet-S和ResNet-101是所有三個基準測試的強大模型。 V4為0.892,IT為0.817,行為為.497。

通過定期更新大腦數據的大腦評分來評估和跟蹤模型基準的對應關係可以讓這個系統更加完善。因此,該團隊發佈了Brain-Score.org,一個承載神經和行為基準的平臺,在這個平臺上,可以提交用於視覺處理的ANN,以接收大腦評分及其相對於其他模型的排名,新的實驗數據可以自然地納入其中。


分享到:


相關文章: