计算机人脸识别达到了惊人的准确度,却无法识别两张图片是否相同

研究确定了现代计算机视觉系统的关键弱点

计算机人脸识别达到了惊人的准确度,却无法识别两张图片是否相同

计算机非常适合按照与它们一起找到的对象对图像进行分类,但是它们在确定单个图像中的两个对象何时相同或者不同时

PROVIDENCE,RI [布朗大学] - 计算机视觉算法在过去十年中取得了长足的进步。他们被证明与狗或猫品种分类等任务一样好或更好,并且他们具有从数百万面孔海洋中识别特定面孔的卓越能力。

但布朗大学科学家的研究表明,计算机在一类甚至幼儿都没有问题的任务中惨遭失败:确定图像中的两个物体是相同还是不同。在上周在认知科学学会年会上发表的一篇论文中,布朗团队阐明了为什么计算机在这些类型的任务中如此糟糕,并提出了更智能的计算机视觉系统的途径。

布朗和该报的资深作者,认知,语言和心理科学副教授托马斯塞尔说:"计算机视觉能够实现的目标非常令人兴奋,而且我分享了很多。""但我们认为通过努力了解当前计算机视觉系统的局限性,我们可以真正转向新的,更先进的系统而不是简单地调整我们已有的系统。"

在研究中,Serre和他的同事使用最先进的计算机视觉算法来分析包含两个或更多随机生成的形状的简单黑白图像。在某些情况下,对象是相同的;有时它们是相同的,但有一个物体相对于另一个物体旋转;有时候物体完全不同。要求计算机识别相同或不同的两个图像。

该研究表明,即使在数十万个训练样例之后,算法也不比识别适当关系的机会好。那么,问题来了,为什么这些系统在这项任务中表现如此糟糕。

Serre和他的同事怀疑它与这些计算机视觉算法无法个性化对象有关。当计算机查看图像时,它们实际上无法分辨图像中的一个对象停止的位置以及背景或其他对象的开始。他们只看到一组像素,这些像素与他们学会与某些标签相关联的像素集合具有相似的模式。这适用于识别或分类问题,但在尝试比较两个对象时会崩溃。

为了证明这确实是算法崩溃的原因,Serre和他的团队进行了一些实验,使计算机不必对单独对象进行个性化处理。研究人员不是在同一图像中显示计算机中的两个对象,而是在单独的图像中一次一个地向计算机显示对象。实验表明,只要算法不必在同一图像中同时查看两个对象,算法就可以学习相同或不同的关系。

Serre说,个体化对象问题的根源是为算法提供动力的机器学习系统的体系结构。算法使用卷积神经网络 - 连接处理单元的层,松散地模仿大脑中的神经元网络。与大脑的一个主要区别在于人工网络完全是"前馈" - 意味着信息具有通过网络层的单向流。据Serre说,这不是人类视觉系统的运作方式。

"如果你看看我们自己的视觉系统的解剖结构,你会发现有很多反复出现的连接,其中信息从较高的视觉区域到较低的视觉区域并返回,"塞尔说。

虽然目前还不清楚这些反馈究竟是做什么的,但塞尔说,很可能它们与我们关注视野中某些部分并在脑海中对物体进行心理表征的能力有关。

"据推测,人们会关注一个物体,在他们的工作记忆中建立一个与该物体相关的特征表征,"塞尔说。"然后他们将注意力转移到另一个物体上。当两个物体都在工作记忆中表现出来时,你的视觉系统能够进行相同或不同的比较。"

Serre和他的同事们假设计算机无法做到这一点的原因是因为前馈神经网络不允许这种个性化和对象的心理表征所需的那种循环处理。可能,Serre说,使计算机视觉更智能将需要更接近人类视觉处理的周期性质的神经网络。


分享到:


相關文章: