錘子是一個神奇的工具,各種畫風都能駕馭。
比如,神族玩錘子是這樣。
獸族玩錘子是這樣。
迴歸正片,今天來看看,機器人玩(個)錘子,且是自學成才,會有怎樣的畫風?
今天的機器人主角,誕生在斯坦福李飛飛夫婦的實驗室裡,擁有花樣錘技,還被機器人頂會RSS 2018選中了。
關於錘技,先看兩個小栗子。
任務一:把釘子敲進木盒
人類只告訴機器人這個任務,沒有其他多餘的指示。使用什麼工具,用什麼姿勢完成,全靠機器人自己判斷。
它發現了桌上的一把錘子。
於是,抓起錘子的把手,把釘子敲了進去。
完成。
任務二:清除桌面的易拉罐
同樣,人類只告訴機器人這個任務,沒有其他多餘的指示。使用什麼工具,用什麼姿勢完成,全靠機器人自己判斷。
於是,它又抓起了桌上的錘子。
同樣完成。
注意,兩個不同的任務,握錘姿勢不一樣(不一樣……)
這個機智的機器人,能夠根據不同的任務,決定應該如何握住手裡的錘子,以及用什麼方式完成指定的任務。
其實,就算是它從來沒見過的、骨骼清奇的錘子,也是一眼就會玩。
鋸都算上了,但這也只是很小的一部分。
而且,機器人腦子裡的神經網絡,是自我監督學習的,不需要人類傳授什麼秘籍。
這隻為了任務定製抓取姿勢的機器人,是如何修煉成仙的?
先審題,再行動
從前的機器人,大多是用保守的方式抓取工具——抓質心最穩。
簡單粗暴,但這並不一定適合它下一步要完成的操作。
△ 左為兩眼一抹黑,右為找得著北
畢竟,釘子要完全敲進去,易拉罐要掉下桌面去,才算成功。
所以,抓取的牢固程度,與適合任務的程度之間,需要一些妥協。
為了讓機器人,在執行任務的時候更有針對性,斯坦福團隊制定了四步方略如下——
一是,機器人要懂得,人類希望的結果是什麼。
二是,機器人要識別物體的特徵,知道它是好用的工具。
三是,找到合適的抓握方向,才能更有效地做任務。
四是,去吧,皮卡丘。
知之為知之,審題真的有用。
神經網絡兩步走,一抓取二操作
(^∀^*) 機器人:
咦,任務是掃桌
咦,錘子長這樣
咦,這姿勢不錯
咦,易拉罐沒了
為了讓機器人選擇正確的姿勢,執行特定的任務,團隊設計的神經網絡結構,也並非一步登天。
△ TOG = 任務導向的抓取
這個名叫TOG-Net的神經網絡,可以同時訓練兩個模型——
一是抓取模型,二是操作模型,對應每個任務 (錘擊/掃除) 的兩個階段。
優秀的抓取姿勢,是任務成功的一半。
給神經網絡輸入一幅圖,它就會提出幾種抓取姿勢。
抓取模型會為每個姿勢算出一個分數,代表抓取質量。
選擇分數最高的一種姿勢,給機器人去執行,並且把這個姿勢發送給操作模型。
這樣一來,系統就能根據已經採取的動作,來規劃後面的動作。
步步為營。
虛擬的訓練,現實的測試
神經網絡不是直接在真實世界裡訓練的,而是在一個名叫“Bullet (子彈) ”的開源物理模擬器裡訓練的。
虛擬世界裡,機器人可以嘗試無數次失敗,修煉出錘子的使用技能。
雖然,團隊也在思考,是不是直接進三次元修煉,也會同樣有效。
模擬器可以生成大量的模擬數據。
比如,這樣那樣的錘子。大體分為三類,T型、L型、X型。
當然,現實更復雜,所以,混合型也要包含進去。
除了工具之外,抓取姿勢的數據也非常重要,難點也在這裡。
因為,姿勢採樣的時候,抓握的點大多集中在工具的長邊上。許多姿勢之間,距離都非常小,太相似了,多樣性又不夠。
△ 適用於掃除的姿勢,作用點就不在長邊上
於是,團隊用了物體識別中,常見的非極大抑制 (NMS) 方法,去除了一些與高分姿勢非常相近的姿勢。
這樣,訓練集裡面的姿勢各不相同,對訓練來說更有力。
另外,自我監督學習機制,會用每一次抓取成功和任務成功的標籤,來指導訓練過程。
當然,模擬器終究是模擬器,最後還是要把訓練成果搬到現實裡來。
三次元裡,機器人的夾具,是依靠深度攝像頭的點雲來工作的。
像這樣,稍稍超出常理的“錘子”,機器人還會給它轉體180度,再掃掉易拉罐。
駕輕就熟。
成果,萬變不離其宗
其實,來這裡的路上,各位已經陸陸續續看過一些測試的效果了。
不過,還是要強調,以下這些錘子,機器人在訓練的時候,都沒見過。
T型錘的掃除玩法。
L型錘的敲釘玩法。
混合錘,就是剛才那隻綠色腦袋的奇怪物體,再出現一次。
△ 要打架麼
隱隱感覺,機器人看到這樣不科學的工具,還是有些情緒。
不過,內心戲放在一邊,研究人員對AI和機器人一起做的任務,還是很滿意的。
除了直觀地看出,碾壓了某不知任務的算法,數據也很硬——
不管錘子是T型,L型,還是奇型。
也不管任務是錘擊,還是掃除。
成功率都比忽略任務的同行,高出許多。
實驗室裡的人類們
這項研究的團隊主要來自斯坦福計算機視覺與學習實驗室(SVL Lab),包括李飛飛、Silvio Savarese,和他們的學生們。
△ 房寬
論文的第一作者房寬是斯坦福大學讀博士,師從Silvio Savarese。在進入斯坦福大學之前,他在清華大學讀完了本科,當時曾經在微軟亞洲研究院機器學習組實習。
房寬在個人主頁上透露,去年夏天,他是在Google [X] Robotics度過的;而今年暑假,他要去Google Brain實習了~
其他幾位作者也都來自斯坦福大學,其中二作Yuke Zhu和Animesh Garg都是李飛飛和Savarese的學生,而Andrey Kurenkov師從Silvio和Ken Goldberg。
而最後兩位作者,也就是指導這項研究老師們,你們應該都很熟悉啦。
一位是計算機視覺界的國民女神李飛飛:
另一位,是她的丈夫,同是斯坦福大學副教授的Silvio Savarese。
不知道這張實驗室全家福裡,有沒有你熟悉的身影:
文/機械慄:量子位(ID:QbitAI)
閱讀更多 工程機械模擬器 的文章