AI加持的錘子,李飛飛造

AI加持的錘子,李飛飛造

錘子是一個神奇的工具,各種畫風都能駕馭。

比如,神族玩錘子是這樣。

AI加持的錘子,李飛飛造

獸族玩錘子是這樣。

AI加持的錘子,李飛飛造

迴歸正片,今天來看看,機器人玩(個)錘子,且是自學成才,會有怎樣的畫風?

今天的機器人主角,誕生在斯坦福李飛飛夫婦的實驗室裡,擁有花樣錘技,還被機器人頂會RSS 2018選中了。

關於錘技,先看兩個小栗子。

任務一:把釘子敲進木盒

人類只告訴機器人這個任務,沒有其他多餘的指示。使用什麼工具,用什麼姿勢完成,全靠機器人自己判斷。

AI加持的錘子,李飛飛造

它發現了桌上的一把錘子。

於是,抓起錘子的把手,把釘子敲了進去。

AI加持的錘子,李飛飛造

完成。

任務二:清除桌面的易拉罐

同樣,人類只告訴機器人這個任務,沒有其他多餘的指示。使用什麼工具,用什麼姿勢完成,全靠機器人自己判斷。

於是,它又抓起了桌上的錘子。

AI加持的錘子,李飛飛造

同樣完成。

注意,兩個不同的任務,握錘姿勢不一樣(不一樣……)

AI加持的錘子,李飛飛造

這個機智的機器人,能夠根據不同的任務,決定應該如何握住手裡的錘子,以及用什麼方式完成指定的任務。

其實,就算是它從來沒見過的、骨骼清奇的錘子,也是一眼就會玩。

AI加持的錘子,李飛飛造

鋸都算上了,但這也只是很小的一部分。

而且,機器人腦子裡的神經網絡,是自我監督學習的,不需要人類傳授什麼秘籍。

這隻為了任務定製抓取姿勢的機器人,是如何修煉成仙的?

先審題,再行動

從前的機器人,大多是用保守的方式抓取工具——抓質心最穩。

簡單粗暴,但這並不一定適合它下一步要完成的操作。

AI加持的錘子,李飛飛造

△ 左為兩眼一抹黑,右為找得著北

畢竟,釘子要完全敲進去,易拉罐要掉下桌面去,才算成功。

所以,抓取的牢固程度,與適合任務的程度之間,需要一些妥協。

AI加持的錘子,李飛飛造

為了讓機器人,在執行任務的時候更有針對性,斯坦福團隊制定了四步方略如下——

一是,機器人要懂得,人類希望的結果是什麼。

二是,機器人要識別物體的特徵,知道它是好用的工具。

三是,找到合適的抓握方向,才能更有效地做任務。

四是,去吧,皮卡丘。

AI加持的錘子,李飛飛造

知之為知之,審題真的有用。

神經網絡兩步走,一抓取二操作

(^∀^*) 機器人:

咦,任務是掃桌

咦,錘子長這樣

咦,這姿勢不錯

咦,易拉罐沒了

為了讓機器人選擇正確的姿勢,執行特定的任務,團隊設計的神經網絡結構,也並非一步登天。

AI加持的錘子,李飛飛造

△ TOG = 任務導向的抓取

這個名叫TOG-Net的神經網絡,可以同時訓練兩個模型——

一是抓取模型,二是操作模型,對應每個任務 (錘擊/掃除) 的兩個階段。

優秀的抓取姿勢,是任務成功的一半。

AI加持的錘子,李飛飛造

給神經網絡輸入一幅圖,它就會提出幾種抓取姿勢。

抓取模型會為每個姿勢算出一個分數,代表抓取質量。

選擇分數最高的一種姿勢,給機器人去執行,並且把這個姿勢發送給操作模型。

這樣一來,系統就能根據已經採取的動作,來規劃後面的動作。

步步為營。

虛擬的訓練,現實的測試

神經網絡不是直接在真實世界裡訓練的,而是在一個名叫“Bullet (子彈) ”的開源物理模擬器裡訓練的。

AI加持的錘子,李飛飛造

虛擬世界裡,機器人可以嘗試無數次失敗,修煉出錘子的使用技能。

雖然,團隊也在思考,是不是直接進三次元修煉,也會同樣有效。

模擬器可以生成大量的模擬數據。

AI加持的錘子,李飛飛造

比如,這樣那樣的錘子。大體分為三類,T型、L型、X型。

當然,現實更復雜,所以,混合型也要包含進去。

除了工具之外,抓取姿勢的數據也非常重要,難點也在這裡。

因為,姿勢採樣的時候,抓握的點大多集中在工具的長邊上。許多姿勢之間,距離都非常小,太相似了,多樣性又不夠。

AI加持的錘子,李飛飛造

△ 適用於掃除的姿勢,作用點就不在長邊上

於是,團隊用了物體識別中,常見的非極大抑制 (NMS) 方法,去除了一些與高分姿勢非常相近的姿勢。

這樣,訓練集裡面的姿勢各不相同,對訓練來說更有力。

AI加持的錘子,李飛飛造

另外,自我監督學習機制,會用每一次抓取成功和任務成功的標籤,來指導訓練過程。

當然,模擬器終究是模擬器,最後還是要把訓練成果搬到現實裡來。

三次元裡,機器人的夾具,是依靠深度攝像頭的點雲來工作的。

AI加持的錘子,李飛飛造

像這樣,稍稍超出常理的“錘子”,機器人還會給它轉體180度,再掃掉易拉罐。

駕輕就熟。

成果,萬變不離其宗

其實,來這裡的路上,各位已經陸陸續續看過一些測試的效果了。

不過,還是要強調,以下這些錘子,機器人在訓練的時候,都沒見過。

AI加持的錘子,李飛飛造

T型錘的掃除玩法。

AI加持的錘子,李飛飛造

L型錘的敲釘玩法。

AI加持的錘子,李飛飛造

混合錘,就是剛才那隻綠色腦袋的奇怪物體,再出現一次。

AI加持的錘子,李飛飛造

△ 要打架麼

隱隱感覺,機器人看到這樣不科學的工具,還是有些情緒。

不過,內心戲放在一邊,研究人員對AI和機器人一起做的任務,還是很滿意的。

除了直觀地看出,碾壓了某不知任務的算法,數據也很硬——

AI加持的錘子,李飛飛造

不管錘子是T型,L型,還是奇型。

也不管任務是錘擊,還是掃除。

成功率都比忽略任務的同行,高出許多。

實驗室裡的人類們

這項研究的團隊主要來自斯坦福計算機視覺與學習實驗室(SVL Lab),包括李飛飛、Silvio Savarese,和他們的學生們。

AI加持的錘子,李飛飛造

△ 房寬

論文的第一作者房寬是斯坦福大學讀博士,師從Silvio Savarese。在進入斯坦福大學之前,他在清華大學讀完了本科,當時曾經在微軟亞洲研究院機器學習組實習。

房寬在個人主頁上透露,去年夏天,他是在Google [X] Robotics度過的;而今年暑假,他要去Google Brain實習了~

其他幾位作者也都來自斯坦福大學,其中二作Yuke Zhu和Animesh Garg都是李飛飛和Savarese的學生,而Andrey Kurenkov師從Silvio和Ken Goldberg。

而最後兩位作者,也就是指導這項研究老師們,你們應該都很熟悉啦。

AI加持的錘子,李飛飛造

一位是計算機視覺界的國民女神李飛飛:

AI加持的錘子,李飛飛造

另一位,是她的丈夫,同是斯坦福大學副教授的Silvio Savarese。

不知道這張實驗室全家福裡,有沒有你熟悉的身影:

AI加持的錘子,李飛飛造

文/機械慄:量子位(ID:QbitAI)


分享到:


相關文章: