視覺-語言導航新篇章:真實場景下的遠程物體定位導航任務

視覺-語言導航新篇章:真實場景下的遠程物體定位導航任務

本文介紹的是CVPR 2020上錄用為Oral的論文《REVERIE: Remote Embodied Visual Referring Expression in Real Indoor Environments》(已開源),這篇論文是由澳大利亞阿德萊德大學吳琦老師V3A課題組的博士後齊元凱,與佐治亞理工,加州大學聖塔芭芭拉分校合作完成。


文 | 齊元凱

編 | 賈 偉


視覺-語言導航新篇章:真實場景下的遠程物體定位導航任務

論文地址:https://arxiv.org/abs/1904.10151

數據代碼地址: https://github.com/YuankaiQi/REVERIE

1、動 機


一個10歲的兒童有很大可能完成“給我拿個抱枕”這樣的命令,即使是在一個陌生的環境中。然而,機器人完成這樣的任務卻十分困難,因為機器人還不能像人那樣從熟悉的環境中學習大量的知識並加以運用,比如抱枕通常在沙發上,沙發通常在起居室,而起居室通常通過走廊和其他房間相連。此外,人類還可以理解指令,並將他們與視覺感知關聯起來。

為了讓機器人具有這樣的能力,更靈活、準確地與人類交互,促進真實環境下視覺-語言相關的研究,我們提出了遠程物體定位任務 REVERIE:Remote Embodied Visual referring Expression in Real Indoor Environments.


視覺-語言導航新篇章:真實場景下的遠程物體定位導航任務

圖 1 REVERIE任務示例

圖1給出了該任務的一個示例,機器人被隨機放置在一個位置,然後給予一個與遠處物體相關的指令,如‘Bring me the bottom picture that is next to the top of stairs on level one’,機器人需要根據該指令和感知的視覺圖像,找到該指令所指定的目標物體。值得注意的是,


1)目標物體在起點是無法被觀測到的,這意味著機器人必須具有常識和推理能力以到達目標可能出現的位置。


2)在當前階段,我們僅要求機器人找到目標物體(如給出目標物體在視覺感知圖像中的邊框,或者在一系列候選物體中選出目標物體),因為即使看似如此簡單的任務已經充滿挑戰性。


與其他的基於視覺和語言的任務不同,如Vision-and-Language Navigation (VLN)[1]、Embodied Question Answering (EQA)[2],REVERIE衡量任務完成情況主要根據是否找到了目標物體,而VLN則是根據是否到達了目的地點,EQA根據是否回答了問題。因此,REVERIE更加清晰地反映了機器人需要理解語言、邏輯推理、圖像物體定位等能力的必要性。


此外,REVERIE中簡潔的語言指令充分模擬了真實世界中人類使用家政機器人的場景。這些簡潔的指令也使得REVERIE任務與使用詳細繁雜導航指令VLN任務[1]區分開來,並將推進高層次視覺-語言推理的研究和機器人的廣泛應用。相對Referring Expression任務[3]來講,REVERIE任務更加複雜,拋開REVERIE任務需要首先導航到正確位置,即便機器人到達了正確的地點,它仍需要環顧四周,從全景圖像的所有物體中找到與語言描述一致的目標物體,而Referring Expression只需要在一張圖像中找出文字語言所描述的物體。

我們收集的REVERIE數據集建立在Matterport3D數據集[4]及其R2R仿真器[1]的基礎之上,二者提供了從真實世界採集的室內全景圖像以及可導航點的聯通圖。為了提供物體級別的信息,我們擴展了R2R仿真器,使其可以提供物體在不同觀測點的邊框。REVERIE數據集總共21,702條人工標註的自然語言指令,平均長度18個單詞,涉及了86個建築的10,318個位置的全景圖像,涵蓋了4,140個目標物體。表1展示了若干收集的指令示例,包含了豐富的語言現象,如高度抽象概括(例1中的fishing theme)、物體間的空間關係(例3)、疑問句式(例6)、祈使句(例9)、指代關係(例10)等。

視覺-語言導航新篇章:真實場景下的遠程物體定位導航任務

表 1 REVERIE自然語言指令示例

為了調研該任務的難度,我們嘗試將前沿的導航算法和圖片物體定位算法結合起來,前者負責導航,後者負責導航結束時選取與語言指令最相符的物體。實驗結果表明,直接拼接兩類算法取得的效果較差。隨後,我們提出了一種導航和物體定位交互的模型,作為該任務的一個強基礎性算法。我們也提供了人類完成這個任務的成功率,結果表明目前的算法遠遠落後於人類表現。因此,該方向具有較大的研究價值和提升空間。


2、數據集簡介


REVERIE數據集共包含21,702條人工標註的自然語言指令,涉及1,600多個詞彙。指令的平均長度為18個單詞。與平均長度29個單詞的R2R數據集相比,我們的指令更簡潔、自然,也因此更具有挑戰性。整個數據集包含4,140個目標物體,覆蓋489個類別,接近ReferCOCO數據集的6倍。


視覺-語言導航新篇章:真實場景下的遠程物體定位導航任務

圖 2 指令長度分佈(左),物體數量分佈(右)

圖2左圖展示了指令的長度分佈。可以看出,大部分指令具有10~22個單詞。最短的指令只有3個單詞,如‘flush the toilet’。圖2右圖展示了指令中涉及的物體數量分佈,可以看出,56%的指令提及了3個或以上的物體,28%的指令提及了2個物體,15%的數據提及1個物體。


視覺-語言導航新篇章:真實場景下的遠程物體定位導航任務

圖 3 指令詞雲(左)目標物體詞雲(右)

圖3以詞雲的形式展示了指令中不同單詞出現頻率的相對大小,以及目標物體中各類物體出現的相對頻率(字體越大,佔比越高)。可以看出,與導航相關的詞彙人們傾向於使用‘go’,目的物體以‘picture’居多。


數據集劃分:數據集劃分為訓練、驗證和測試三部分,每部分劃分與R2R數據集保持一致。這為後續工作同時利用R2R中詳細的導航指令以及本工作的簡潔指令提供支持。具體來說,訓練集合涉及60個建築物,10,466條指令,2,353個物體。驗證集涉及56個建築物,953個物體,4,944條指令。驗證集中10個建築物,3,521條指令,513個物體未出現在訓練集中。測試集共6,292條指令,涉及834個物體,16個建築物。測試集的數據未出現在訓練集或驗證集中。


3、方法


我們發現簡單的將前沿的導航算法與圖片物體定位算法結合起來並不能在REVERIE任務上取得很好的效果(參見實驗結果部分)。為此,我們提出了一個導航和物體定位互動算法。圖4展示了算法的主要組成和流程。


視覺-語言導航新篇章:真實場景下的遠程物體定位導航任務

圖 4 Interactive Navigation-Pointer 模型


首先,物體定位模塊Pointer以當前位置的視覺感知圖像和自然語言指令為輸入,計算並返回與指令最相符的3個物體。這3個物體的視覺特徵和類別標籤用作導航模塊Navigator的輸入。同時,Navigator也以語言指令和當前位置的感知圖像為輸入。由Navigator輸出停止或下一個前進的方向。如果Navigator輸出停止,則當前步Pointer返回的與語言指令最相似的物體為最終輸出結果。


在我們的方法中,我們選取了性能優異的導航算法FAST[5]為Navigator,以MAttNet[6]為Pointer。這兩個算法均在我們的數據集上進行重新訓練。算法細節請參見我們的論文。

4、實驗結果


評價準則:


REVERIE任務採用Remote Grounding Success (RGS) rate作為主要的評價準則,它是成功找到目標物體的任務數與總任務數的比值。而是否成功找到物體有兩種評價方法:


1)如果Pointer從模擬器提供的若干候選物體中進行選擇,則選出正確的物體為成功。


2)如果Pointer從物體檢測器提供的候選物體中進行選擇,則預測輸出的邊框與真實邊框的交併比不小於0.5視為成功。


目前,我們採用模擬器提供候選物體的方式進行測評(該設定下,RGS已經非常低)。此外,我們也對導航性能進行評測,主要採用了R2R數據集中的成功率(Success Rate)、路徑長度加權(SPL)的成功率等指標。需要注意的是,在REVERIE任務中,如果停止的位置離目標物體3米之內,即視為導航成功。

對比算法:


我們對比了8個算法,他們的工作流程均為先導航,導航結束後使用與我們的算法相同的Pointer找出與指令最相似的物體。這8個算法中包括4個Baseline(Random、Shortest、R2R-TF、R2R-SF)和3個前沿導航算法(RCM、SelfMonitor、FAST-short)以及在該任務上表現最好的前沿算法的一個變種(FAST-Lan-Only,僅輸入語言指令到FAST-short中)。


Baseline中Shortest表示假設機器人已經到達目的地,由Pointer返回預測的物體,相當於測試Pointer的準確度。

結果分析:


表2展示了主要實驗結果。可以看到隨機算法的成功率不到1%,這表明REVERIE任務具有非常大的解空間。


視覺-語言導航新篇章:真實場景下的遠程物體定位導航任務

表 2 REVERIE實驗結果

R2R-TF和R2R-SF的性能比Random在Val Seen上稍好些,但在Unseen場景下成功率僅有2%左右。Shortest展示出我們選用的Pointer在Unseen場景下最高可以達到50%左右的成功率。


另一方面,前沿導航算法(如FAST-short)在Val Seen上取得了30%左右的成功率,但是在Unseen場景下最高只有7%的成功率。FAST-Lan-Only在ValSeen場景下比FAST-short成功率大幅下降,這表明視覺信息對完成該任務具有重要的作用。


二者在Unseen場景下差異較小主要是因為成功率都處於較低的位置。最後,我們的算法相對前沿算法有所提高,在Unseen場景下取得了11%的成功率,但是離人類的成功率77.84%仍有很大差距。這表明該任務具有較大的探索空間。

參考文獻

[1] Peter Anderson, Qi Wu, Damien Teney, Jake Bruce, Mark Johnson, Niko S¨underhauf, Ian D. Reid, Stephen Gould, and Anton van den Hengel. Vision-and-language navigation: Interpreting visually-grounded navigation instructions in real environments. In CVPR, pages 3674–3683, 2018.

[2] Abhishek Das, Samyak Datta, Georgia Gkioxari, Stefan Lee, Devi Parikh, and Dhruv Batra. Embodied question answering. In CVPR, pages 1–10, 2018.

[3] Sahar Kazemzadeh, Vicente Ordonez, Mark Matten, and Tamara Berg. Referitgame: Referring to objects in photographs of natural scenes. In EMNLP, pages 787–798, 2014.

[4] Angel X. Chang, Angela Dai, Thomas A. Funkhouser, Maciej Halber, Matthias Nießner, Manolis Savva, Shuran Song, Andy Zeng, and Yinda Zhang. Matterport3d: Learning from RGB-D data in indoor environments. In 3DV, pages 667–676, 2017.

[5] Liyiming Ke, Xiujun Li, Yonatan Bisk, Ari Holtzman, Zhe Gan, Jingjing Liu, Jianfeng Gao, Yejin Choi, and Siddhartha S. Srinivasa. Tactical rewind: Self-correction via backtracking in vision-and-language navigation. In CVPR, pages 6741–6749, 2019.

[6] Licheng Yu, Zhe Lin, Xiaohui Shen, Jimei Yang, Xin Lu, Mohit Bansal, and Tamara L. Berg. Mattnet: Modular attention network for referring expression comprehension. In CVPR, pages 1307–1315, 2018.


分享到:


相關文章: