識音辯物-通過聲音來預測物體的外觀及運動


卡內基梅隆大學的研究人員在一項新的研究中聲稱,聲音可以用來預測物體的外觀及其運動。研究人員創建了一個"聲音動作視覺"數據集和一系列AI算法,以研究音頻,視覺和運動之間的相互作用。結果表明,從聲音中可以用來預測物體在受到力作用時移動的位置。

儘管視覺是感知的基礎,但聲音卻同樣重要。它可以捕獲通常通過視覺無法察覺的豐富信息,例如干樹葉的質地或香檳酒瓶內的壓力。但是很少有系統和算法利用聲音作為建立物理理解的工具。這激勵了卡內基梅隆大學的研究,該研究試圖探索聲音與動作之間的協同作用,並發現其中可做出什麼樣的推斷。

研究人員首先通過建立一個機器人 Til-Bot來創建聲音動作視覺數據集,該機器人將包括螺絲起子,剪刀,網球,立方體和夾子在內的物體沿任意方向傾斜放在托盤上。物體撞擊石膏托盤的薄壁併產生聲音,這些聲音將被逐一添加到語料庫中。

識音辯物-通過聲音來預測物體的外觀及運動

識音辯物-通過聲音來預測物體的外觀及運動

安裝在30×30釐米托盤上的四個麥克風(每側各一個)記錄音頻,而高架攝像機則捕獲RGB和深度信息。Tilt-Bot將每個物體移動了一個小時,並且每次對象與托盤接觸時,機器人都會創建一個包含聲音、RGB和深度的數據集,並記錄物體與牆壁碰撞時的位置。

利用碰撞中的錄音,該團隊使用了一種方法,使他們能夠將錄音視為圖像。這允許模型捕獲來自單個音頻通道的時間相關性(即,一個麥克風的錄音)以及多個音頻通道之間的相關性(來自多個麥克風的錄音)。

然後,研究人員利用語料庫(其中包含來自60多個物體和托盤之間15,000次碰撞的聲音)來訓練模型以從音頻中識別物體。在第二個更具挑戰性的練習中,他們訓練了一個模型來預測對看不見的物體執行了哪些操作。第三,他們訓練了一種前向預測模型,以在物體被機械臂推動後推斷物體的位置。

識音辯物-通過聲音來預測物體的外觀及運動

識音辯物-通過聲音來預測物體的外觀及運動

上圖:正向模型預測在此處顯示為圖像對。左邊的圖像是交互之前的觀察結果,而右邊的圖像是交互之後的觀察結果。基於交互之前的對象地面真相位置(顯示為綠色點),對象的音頻嵌入和機器人採取的動作(顯示為紅色箭頭),經過訓練的正向模型可以預測將來的對象位置(顯示為紅色)點)。

研究人員稱,物體識別模型學會了從聲音中預測正確的物體的時間為79.2%,只有在生成的聲音太柔和時才會失敗。同時,動作預測模型在一組30個以前看不見的物體上實現了0.027的均方誤差,比僅使用來自攝像機的圖像訓練的模型要好42%。而且,前向預測模型在預測物體可能移動的位置時更為準確。

研究人員寫道:"在某些領域,例如正向模型學習,我們證明了聲音實際上提供的信息多於僅從視覺信息獲得的信息。" "我們將公開發布Tilt-Bot的數據集,以此來激發聲效領域的未來工作,希望將在機器人技術中找到廣泛應用。"

視頻:

識音辯物-通過聲音來預測物體的外觀及運動

:https://www.ixigua.com/6849940106967515655/


分享到:


相關文章: