通过“幻觉”场景，训练机器人识别物体位置科技頭條網

2020-02-13 02:51:50 AI智慧

随着越来越多的机器人进入各种环境，研究人员正试图让它们与人类的互动尽可能顺畅和自然。训练机器人立即对口头指令做出反应，如“拿起玻璃，把它移到右边”等，这在许多情况下是理想的，因为它最终将实现更直接，更直观的人机交互。但是，这并不总是那么容易，因为它需要机器人理解用户的指令，而且还需要知道如何根据特定的空间关系移动对象。

Oier Mees 演示新方法的工作原理。

德国弗莱堡大学的研究人员最近设计了一种新的方法来教机器人如何按照人类用户的指令移动物体，这种方法的工作原理是对“产生幻觉的”场景表征进行分类。他们的论文将于今年6月在巴黎举行的IEEE机器人和自动化国际会议(ICRA)上正式发表。

开展这项研究的研究人员之一奥伊尔·米斯说：“在我们的工作中，我们专注于关系物体的放置指令，比如‘把杯子放在盒子的右边’或‘把黄色玩具放在盒子上面’，要做到这一点，机器人需要推理出杯子相对于盒子或任何其他参考物体的放置位置，以便再现用户描述的空间关系。

训练机器人理解空间关系并相应地移动对象可能非常困难，因为用户的指令通常不会描绘机器人观察到的更大场景中的特定位置。换句话说，如果人类用户说“把杯子放在手表的左边”，机器人应该把杯子放在离手表多远的地方，以及不同方向(例如，右、左、前、后等)之间的确切边界在哪里？

米斯说：“由于这种内在的模糊性，也没有基本的事实或‘正确的’数据可以用来学习建立空间关系模型。”我们从辅助学习的角度来解决空间关系的不可用性，即空间关系的像素化注释。

米斯和他的同事设计的方法背后的主要思想是，当给出两个物体和一个表示它们所在环境的图像时，就更容易确定它们之间的空间关系。这使得机器人能够检测一个物体是否在另一个物体的左边、上面、前面等等。

图中总结了研究人员设计的方法是如何工作的。

上图 / 图中总结了研究人员设计的方法是如何工作的。辅助的CNN（称为RelNet）被训练来预测给定输入图像和两个注意掩码的空间关系，这两个注意掩码指的是形成一个关系的两个对象。（a）训练后，网络可以通过（b）在不同的空间位置实现项目的高级特征来“欺骗”对幻觉场景进行分类。

虽然识别两个对象之间的空间关系，并没有指定应在何处复制这些关系，但在场景中插入其他对象可能会允许机器人推断多个空间关系的分布。将这些不存在的物体（即幻觉）添加到机器人所看到的物体中，应该允许它评估场景在执行给定动作时的样子（即，将一个对象放置在桌面或前面的特定位置）。

米斯说：“最常见的情况是，在图像中真实地‘粘贴’对象需要访问三维模型和轮廓，或者仔细设计生成性对抗网络（GANs）的优化过程。”此外，在图像中天真地“粘贴”对象遮罩会产生细微的像素伪影，导致显著不同的特征，并导致错误地将训练重点放在这些差异上。我们采取不同的方法，并将对象的高层次特征植入由卷积神经网络产生的场景的特征图中，以幻觉场景表示，然后将其分类为辅助任务以获得学习信号。

在训练卷积神经网络(CNN)学习基于幻觉物体的空间关系之前，研究人员必须确保它能够基于单一图像对单个物体对之间的关系进行分类。随后，他们通过在不同的空间位置植入物品的高级特征，“欺骗”了他们的名为RelNet的网络，将“幻觉”场景分类。

米斯说：“我们的方法允许机器人遵循人类用户给出的自然语言放置指令，只需最少的数据收集或启发式操作。”每个人都希望家里有一个服务机器人，它可以通过理解自然语言指令来执行任务。这是让机器人更好地理解常用空间介词含义的第一步。”

现有的训练机器人，移动物体的方法大多使用与物体的三维形状相关的信息来建模成正确的空间关系。这些技术的一个关键限制是，它们通常需要额外的技术组件，例如可以跟踪不同物体运动的跟踪系统。另一方面，米斯和他的同事提出的方法不需要任何额外的工具，因为它不是基于三维视觉技术的。

研究人员在一系列涉及真人用户和机器人的实验中对他们的方法进行了评估。这些测试的结果非常有希望，因为他们的方法使机器人，能够根据人类用户口头指令勾勒出正确的空间关系，有效地识别将物体放置在桌子上的最佳策略。