DeepMind新論文:AI也有空間想象力 幾張圖片就腦補3D場景

智東西 編 | 心緣

【導語】給你一個物體的主視圖和俯視圖,你需要多久時間去想象出它的3D原型並畫出側視圖?DeepMind的新AI算法已經可以快速解決這一問題。

智東西6月15日消息,本週四,谷歌子公司DeepMind在Science上發表了新論文《Neural scene representation and rendering》。這篇論文介紹了一種新型計算機視覺算法,可以基於某個單一的平面圖像,去從不同角度“想象”它的三維模型。

DeepMind新論文:AI也有空間想象力 幾張圖片就腦補3D場景

該算法被稱之為生成查詢網絡(GQN)。只需給人工智能一些二維場景圖片,比如說一面磚牆、樓梯上的明亮球體和方塊,人工智能就可以產生從不同角度觀察這個場景的三維模擬圖、渲染物體不同的面甚至解決相同光源下的陰影位置問題。

大多數視覺識別系統都需要人員標記數據集中每個場景中每個對象的每個方面,這是一個費時費力的過程。GQN項目旨在消除AI研究人標註數據集圖像的需求,並複製人類大腦瞭解其周圍環境和物體之間交互的方式。它的應用非常廣泛,從機器人視覺到VR仿真,未來都有可能看見它的身影。

一、GQN:從場景中獲取訓練數據

GQN可以從任何角度組合和渲染一個物體或場景,與一般AI的工作方式有很大的不同。通常機器學習方法需要用數百萬經過人類標註的圖像作為樣本集,但這個新的神經網絡只需要幾張平面圖片就能完成學習任務。

具體而言,GQN可以分成兩個部分:表示網絡和生成網絡。前者不知道生成網絡需要預測哪些視角,通過從二維圖像中提取一套用於描述場景的計算機代碼;後者則可以輸出對以前未觀察到的角度或想象場景的預測。

DeepMind新論文:AI也有空間想象力 幾張圖片就腦補3D場景

二、無監督學習:從新視角“想象”從未見過的場景

新算法使用無監督算法,學習行為和嬰兒、動物十分相似。它通過嘗試觀察周圍的世界來理解和學習,在學習過程中無需任何人員監督或培訓,因為它有能力“想象”場景的另一邊看起來像什麼樣子。

DeepMind新論文:AI也有空間想象力 幾張圖片就腦補3D場景

為了訓練這個系統,DeepMind的研究人員對GQN進行了受控測試。即從不同角度提供場景圖像,讓GQN學習這些物體的紋理、顏色和光照以及它們之間的空間關係。然後預測了這些物體其他角度。

結果發現,當研究團隊去除或增加場景中的物體,或者改變部分物體的形狀與顏色後,系統並不需要人類向它解釋“形狀”、“顏色”等詞彙的概念,就能通過自主學習得到相應的結果。

“此前我們並不知道,神經網絡能夠以這樣精確和可控的方式學習如何創建圖像。“DeepMind的研究人員、論文第一作者Ali Eslami說道,“然而,我們發現足夠深度的網絡可以在沒有人為干預的情況下學習透視和照明。這是一個超級驚人的發現。”

三、GQN算法的侷限性與意義

這篇論文是一系列引人注目的DeepMind項目中的最新版本,DeepMind項目展示了人工智能系統以前無法預料的能力,一旦程序員們設定了基本參數,人工智能就可以自主學習。

去年10月份,DeepMind的AlphaZero,在發佈了100場系列賽的不敗紀錄之後,能夠在12月份擊敗備受讚譽的StockFish國際象棋項目。人工智能贏了28場比賽並打了72場比賽,在沒有任何人為干預或任何幫助的情況下贏得了世界上最好的國際象棋程序大獎。上個月,另一個DeepMind AIi系統以與人類大腦完全不同的方式在迷宮中導航,在看到一系列不同角度的圖片後,它可以模擬出迷宮的佈局,從而找到走出迷宮的路徑。諸如此類的任務相當令人影響深刻。

DeepMind新論文:AI也有空間想象力 幾張圖片就腦補3D場景

如果將這套系統應用在機械臂的控制上,GQN僅需一個固定攝像頭記錄二維圖像,就能獲知機械臂的運動情況。在場景中移動時,系統會不斷學習和會自我修正,定位和控制機械臂所需採集的數據量也大大減少。

然而,這項技術仍然存在其侷限性。據研究人員說,GQN只在少量物體的相對簡單的場景中進行過測試,因為它仍然缺乏能夠生成更復雜的3D模型的能力。DeepMind正在開發更強大的系統,這些系統需要更少的處理能力和更小的語料庫,以及可處理更高分辨率圖像的框架。

Eslami表示:“雖然我們的算法在實踐之前還有很多研究要完成,然後才能在現實世界中部署這種新型系統,但這項工作使我們離構建可自行學習場景理解更近了一步。”

技術的侷限性並不影響這篇論文的進步意義。DeepMind開發了一種只依賴自身圖像傳感器的輸入的系統,並在無監督情況下自主學習,這為未來人工智能開闢了新道路,即可以通過傳感器自主觀察和還原世界。

附:《A scene-internalizing computer program》論文摘要

場景表徵,即將視覺傳感數據轉換為簡潔描述的過程 ,是智能行為的需求之一。 最近的工作表明,當提供大量帶標記的數據集時,神經網絡在這項任務中表現突出。 但是,消除對人體標籤的依賴仍然是一個重要的公開問題。 為此,我們介紹了生成查詢網絡(Generative Query Network,GQN),在這個框架中,機器學習如何僅使用自己的傳感器來表示場景。 GQN將從不同視點拍攝的場景圖像作為輸入、構建內部表徵,並使用此表示從以前未觀察到的視點預測該場景的外觀。 GQN演示了在沒有人類標籤或領域知識情況下的學習方式,為機器自主學習瞭解周圍世界鋪平了道路。

論文下載地址:http://science.sciencemag.org/content/360/6394/1204/tab-pdf


分享到:


相關文章: