DeepMind人工智能視覺系統已經發展到了哪個階段?

cnBeta

外媒報道稱,谷歌母公司 Alphabet 旗下人工智能子公司 DeepMind 瞭解人類世界的方式,剛剛又前進了一大步。

此前,該公司曾開發過一套教 AI 如何萬視頻遊戲的系統。現在,它可以更好地“看到”並理解空間與環境,由此登上了不少媒體的頭條。

據悉,DeepMind 的科學家們構建了一套人工智能視覺系統,其能夠基於一張 2D 照片,來推斷出一個 3D 場景模型。

【DeepMind 研究科學家 Ali Eslami 教授】

在近日出版的《科學》(Science)期刊上,紮根倫敦的 DeepMind 公佈了這套名為《生成查詢網絡》的新系統的一些細節。

此外,研究人員在官方博客上解釋了"系統是如何從不同的角度拍攝一個場景,並建立 3D 視圖"的:

當下最先進的視覺識別系統,是通過使用大量由人類產生的、帶註釋的圖像來訓練的。

獲取這些數據,是一個相當昂貴且費時的過程,因其需要人們在數據集中的每個場景裡,標記某個對象的方方面面。

結果就是,通常只有總體內容的一小部分場景被捕獲,這就對使用這些數據進行培訓的 AI 視覺系統造成了限制。

【生成查詢網絡(Generative Query Networks)的圖解】

當我們在現實世界中開發更復雜的機器時,我們希望它們能充分了解周圍環境,比如:

最近的表面在哪裡?沙發的材質是哪種?陰影是哪裡的光源產生的?電燈的開關可能在哪裡?

【AI 觀察與神經渲染 - 動圖演示】

與死板的老方法不同,這種方式類似於鼓勵人工智能系統進行想象:

那樣即便沒有相關學習經驗或知識,機器也可以處理很多新鮮事物,甚至用來猜測這個世界。

它們需要被教導如何去想象,而根據其所‘見到’的信息來猜測,似乎是一種不錯的方法。

雖然聽起來有點可怕,但能讓機器學習變得更接近人類的感覺,也算是一項重大的突破了。

【視頻介紹】

《Generative Query Networks》

【視頻地址】

https://v.youku.com/v_show/id_XMzY2Nzc0NTAzNg==.html


分享到:


相關文章: