03.02 训练好的神经网络,如何去解释它的结构和参数?

严文吉


神经网络在这方面的名声不怎么好,经常被人嘲讽是“黑盒”。不过学界其实一直在探索神经网络的可解释性问题。这方面的研究其实不少,比如这个月(2018年3月)DeepMind刚在arXiv(预印本文库)上发了一篇《On the importance of single directions for generalization》(arXiv:1803.06959)。这篇论文背后的直觉很简单:通过

删除神经元,来查看神经元的作用。

比如,之前发现了不少可解释性特别好的神经元,只对某类目标有反应,对其他目标都没有反应。

比如,下图左边的神经元,只对猫有反应,对其他所有东西都不感兴趣。(也许该叫铲屎神经元?)而右边的神经元,就没什么规律了(也许该叫迷茫的神经元?)

令人意外的是,DeepMind的研究人员发现,铲屎神经元和迷茫神经元对整个网络的作用没有明显差别。

从上图我们看到,对于大部分神经元来说,可解释性和其重要性并没有什么关系。而少数关键的神经元,恰恰是迷茫神经元!

所以,神经网络的可解释性,还是一个有待探索的问题。


分享到:


相關文章: