03.02 訓練好的神經網絡,如何去解釋它的結構和參數?

嚴文吉


神經網絡在這方面的名聲不怎麼好,經常被人嘲諷是“黑盒”。不過學界其實一直在探索神經網絡的可解釋性問題。這方面的研究其實不少,比如這個月(2018年3月)DeepMind剛在arXiv(預印本文庫)上發了一篇《On the importance of single directions for generalization》(arXiv:1803.06959)。這篇論文背後的直覺很簡單:通過

刪除神經元,來查看神經元的作用。

比如,之前發現了不少可解釋性特別好的神經元,只對某類目標有反應,對其他目標都沒有反應。

比如,下圖左邊的神經元,只對貓有反應,對其他所有東西都不感興趣。(也許該叫鏟屎神經元?)而右邊的神經元,就沒什麼規律了(也許該叫迷茫的神經元?)

令人意外的是,DeepMind的研究人員發現,鏟屎神經元和迷茫神經元對整個網絡的作用沒有明顯差別。

從上圖我們看到,對於大部分神經元來說,可解釋性和其重要性並沒有什麼關係。而少數關鍵的神經元,恰恰是迷茫神經元!

所以,神經網絡的可解釋性,還是一個有待探索的問題。


分享到:


相關文章: