06.03 机器人,给我来一瓶82年的农夫山泉

MIT计算机科学和人工智能实验室(CSAIL)和多伦多大学的研究人员开发一个虚拟家园“VirtualHome” ,不仅让虚拟机器人成功做家务,还创建了一个用自然语言描述的家庭任务数据库,将来可能有助于亚马逊的Alexa等系统执行更复杂的任务。

“机器人,给我来一瓶82年的农夫山泉。”

收到这个指令,机器人肯定一脸懵逼。

先不说82年的农夫山泉肯定找不到,更现实的问题是,即便是有一瓶现成的农夫山泉,机器人也需要人类更明确、程序化的指令才能完成这个任务,他们不能轻易推断和推理。

MIT计算机科学和人工智能实验室(CSAIL)和多伦多大学的研究人员受《模拟人生》(The Sims)启发,开发一个虚拟家园“VirtualHome” ,不仅让虚拟机器人成功地制作了咖啡、打开烤面包机、在沙发上休息,研究人员还创建了一个用自然语言描述的家庭任务数据库,将来可能有助于亚马逊的Alexa等系统执行更复杂的任务。

VirtualHome:模拟家庭八个场景中的1000个交互

VirtualHome是一个3D环境,它允许模拟和生成活动的视频,并将它们作为动作和交互的序列。

VirtualHome基于三个主要模块:

家庭任务的知识库,包含如何执行某些公共任务的指令;

VirtualHome环境,一个模拟和生成这些任务的视频的3D模拟器,以及允许从描述或视频演示生成程序的脚本生成模型

机器人,给我来一瓶82年的农夫山泉

团队使用了近3000个不同活动的程序来训练这个系统,这些活动被进一步细分为计算机的子任务来理解。这是因为机器人与人类不同,它们需要更明确的指令来完成简单的任务,不能轻易地推断和推理。

例如,一个人可能会告诉另外一个人:“打开电视,在沙发上看吧。”在这句话中,像诸如“拿遥控器”和“坐/躺在沙发上”这样的动作被省略了,因为它们是人类常识的一部分。

为了更好地向机器人演示这类任务,需要更详细地描述操作。

机器人,给我来一瓶82年的农夫山泉

仅看电视这个任务,就分了多个步骤

为此,研究团队首先收集了家庭活动的口头描述,然后将它们翻译成简单的代码。像“打开电视,在沙发上看吧”这样的指令可能包括以下步骤:

走到电视前,打开电视,走到沙发前,坐在沙发上,看电视。

机器人,给我来一瓶82年的农夫山泉

机器人,给我来一瓶82年的农夫山泉

一旦这些程序被创建,这个团队将它们输入到VirtualHome 3-D模拟器,然后将它们转换成视频,虚拟代理将执行程序定义的任务,无论这些任务是看电视、将锅放在炉子上,还是打开和关闭烤面包机。

该团队的虚拟机器人可以在VirtualHome的世界中执行1000个这样的交互,其中有八个不同的场景,包括客厅、厨房、餐厅、卧室和家庭办公室。

程序的

独特之处:包含了执行活动所需的所有步骤

来看一看是具体怎么操作的。

团队收集了一个专门针对机器人的家庭活动的大型知识库,数据集包含活动以及程序的自然语言描述,以一系列步骤的形式表示活动的正式符号。这些程序的独特之处在于它们包含了执行活动所需的所有步骤。

每个任务都有一个高级名称和一个自然语言指令,然后团队为这些任务收集“程序”(下图左中),标注者(annotators)将指令“翻译”为简单的代码。

机器人,给我来一瓶82年的农夫山泉

接着,团队在VirtualHome-3D模拟器中执行最频繁的(内部)操作,能够驱动代理执行由程序定义的任务。团队提出了从文本(上图顶部)和视频(上图底部)自动生成程序的方法,从而通过语言和视频演示驱动代理。

机器人,给我来一瓶82年的农夫山泉

上图描述在VirtualHome中,代理根据描述执行生成的程序。注意,最上面的代理使用他的左手打开冰箱和抓取一个物品,因为他右手已经拿了一个物体。另外,代理还有一些限制,例如,在第三排,代理穿着衣服坐在马桶上。此外,有时携带的物品会由于对撞机的不精确而轻微地穿透代理的身体。

未来:机器人可能摆脱制造商编写的任务,从YouTube上也能学习

该项目由CSAIL和多伦多大学等高校的研究人员共同开发,将在本月在盐湖城举行的CVPR会议上present。

亚利桑那州立大学艺术媒体和工程系的研究助理Qiao Wang说:“这一工作将有助于未来真正的机器人个人助理,机器人都可以通过聆听或观察身边的特定人员来学习任务,而不是制造商编写的每项任务。这使得机器人可以以个性化的方式完成任务,甚至有一天可以通过这种个性化的学习过程调用情感联系。“

此外,研究的结果不仅仅是完成一个训练机器人做家务的系统,它还是一个使用自然语言描述的家庭任务的大型数据库。像亚马逊这样的公司正在努力在家里开发类似Alexa的机器人系统,最终可以使用这些数据来训练他们的模型来完成更复杂的任务。

未来,该团队希望使用实际视频来训练机器人,而不是《模拟人生》这样风格的模拟视频,这将使机器人通过观看YouTube视频来学习

。该团队还致力于实施奖励学习系统,让代理在正确执行任务时得到积极的反馈。


分享到:


相關文章: