加州伯克利大学和麻省理工学院的研究员今天联合发表了一篇论文:用面向对象的预测和规划推理物理交互。
该论文入选了明年的 ICLR 大会,以下是论文摘要:基于对象的分解提供了与世界交互的有用抽象级别。
然而,建立明确的对象表示通常需要在实践中难以获得的监督信号。
我们提出了一种范式,用于学习物理场景理解的以物体为中心的表示,而无需直接监督对象属性。
我们的模型,面向对象的预测和规划(O2P2),共同学习感知功能,从图像观察到对象表示,成对物理交互功能,预测对象集合的时间演变,以及渲染功能,映射对象回到像素。
为了评估,我们不仅考虑模型的物理预测的准确性,而且还考虑其对需要可操作的直观物理表示的下游任务的效用。
在对图像预测任务训练我们的模型之后,我们可以使用其学习的表示来构建比训练期间观察到的更复杂的块塔。
閱讀更多 AI應用前沿 的文章