为什么人工智能助手总会说一些蠢话？問答頭條網

2018-05-26 05:18:00.447000 佚名

碧崇輝

Siri和Alexa显然远非完美，但有望通过机器学习的稳步发展使它们在不久之后成为能说会道的助手。然而，一项新的测试可能表明，要AI系统实际上真正地掌握语言，可能需要一种本质上完全不同的方法。

艾伦人工智能研究所（AI2）是一家位于西雅图的非营利组织。由AI2发起的AI2推理挑战（ARC），将提出小学阶段难度水平的多项选择科学问题。每个问题都需要回答者对世界的基本运作方式有所了解。该项目在相关研究论文中有详细描述。

问题示例如下：“以下哪一项不是由自然生长的材料制成的? (A)棉衬衫(B)木椅(C)塑料勺(D)草篮。”

对于任何知道塑料不是自然产物的人来说，这样的问题都不容易出错。答案属于常识的范畴，就连小孩子都知道。

然而语音助手、聊天机器人和翻译软件背后的人工智能恰恰缺乏这种常识。这是它们经常表现的很困惑的原因之一。

依赖机器学习的语言系统常常能提供令人信服的答案，前提是它们以前见过很多类似的例子。例如，一个使用成千上万个IT服务支持聊天记录训练出来的程序，也许能够在有限的几种情况下作为技术支持助手提供服务。但是，如果你向它提出的问题需要以更广泛的知识为基础，这样的系统往往力不从心。

“我们需要用我们的常识来填补我们所看到的话语之间的空白，从而形成一个连贯的描述图景，”ARC项目的首席研究员彼得·克拉克（Peter Clark）说。“机器没有这种常识储备，他们只能看到字面上明确的意思，因此会忽略了一段文字背后的诸多暗示和假设。”

这项新测试是AI2一项计划的一部分，旨在让AI系统了解世界。这很重要，因为要确定一个语言系统对于所输出内容的理解是件很困难的事。

例如，今年1月，来自微软和阿里巴巴的研究人员分别开发了一款问答程序，在一个名为“斯坦福问题回答数据集”的简单测试中，表现超过了人类。成绩宣布之后，新闻标题开始大肆宣称人工智能程序可以比人类做得更好。但是这些程序无法回答更复杂的问题，也无法利用其他来源的知识。

科技公司将继续以这种方式宣传人工智能系统的功能。微软上周宣布，它已经开发出能够将英语新闻报道翻译成汉语的软件，另外也可以汉译英，经过独立志愿者的评判，该译文已经可以比肩专业翻译的译文。微软的研究人员使用先进的深度学习技术使翻译系统的精确度达到了全新高度。特定情况下这可能非常有用，但是如果要求在系统不熟悉的领域（如病例）翻译没有内容限制的对话或文本，系统将会陷入困境。

纽约大学教授加里·马库斯（Gary Marcus）一直以来都支持常识在人工智能领域的重要性，这次的AI2挑战让他备受鼓励。他说:“我认为这是一种很好的方式，可以解决在机器学习领域普遍存在的基准测试太简单的问题。这的确可以督促人工智能研究人员提升他们的程序。”

本文原刊《麻省理工科技评论》中英文APP 2018 年 3 月下