谷歌大腦工程師給2018學術頂會劃重點:對抗性學習+強化學習

谷歌大腦工程師給2018學術頂會劃重點:對抗性學習+強化學習


新智元編譯

翻譯:肖琴

【新智元導讀】本文作者Alex Irpan是Google Brain機器人團隊的軟件工程師,他在不到一個月的時間裡參加了兩個學術會議:ICLR 2018和ICRA 2018,前者是一個深度學習會議,後者是機器人領域的會議。作者將這兩個會議進行了比較。

谷歌大腦工程師給2018學術頂會劃重點:對抗性學習+強化學習

ICLR 2018

從研究的角度來看,今年ICLR的一大重點是對抗性學習

深度學習領域中最受歡迎的是生成對抗網絡。不過,我在這裡關注的更廣,包括對抗樣本和智能體競爭的環境。實際上,任何形式的極小極大優化問題都可以算作對抗性學習。

我不知道GAN是否真的很受歡迎,或者我的記憶帶有選擇性的偏見,因為我對這些方法很感興趣。GAN給人的感覺很強大。評估GAN的一種方法是,你通過使用學習隱式成本而不是人為定義的成本來學習生成器。這使你能夠適應生成器的能力,並可以定義手動解釋可能很麻煩的成本。

當然,這會讓你的問題更加複雜。但是如果你有足夠強的優化和建模能力,那麼隱式學習的成本將比其他方法能提供更清晰的圖像。使用學習的組件替換一部分系統的一個好處是,優化和建模能力的進步適用於問題的更多方面。你正在提高學習成本函數的能力和最小化這些學習成本的能力。

從抽象點的觀點來看,這涉及到具有表現力的、可優化的函數家族的能力,例如神經網絡。 Minimax優化不是一個新的想法。它已經存在很久了。新的東西是,深度學習可以讓你在高維數據上建模和學習複雜的成本函數。對我來說,GAN的有趣之處不是圖像生成,而是它們在複雜的數據(比如圖像)上的概念證明。這個框架並不要求使用圖像數據。

學習過程中還有其他部分可以用學習方法來替代,而不是用人為定義的方法,深度學習就是這樣一種方法。這樣做有意義嗎?也許有。問題是,你用深度學習方法越多,就越難讓每件事情都可以學習(learnable)。

最近Quanta Magazine上有一篇文章,Judea Pearl在上面表達了他的失望:深度學習只是學習相關性和曲線擬合,而這並不涵蓋所有的智能。我同意Judea Pearl的觀點,但作為深度學習的擁護者,我認為如果你把一個足夠大的神經網絡足夠好地進行優化,你可能會學到一些看起來很像因果推理的東西,或者其他可以算作智能的東西。但這就接近哲學的領域了,所以我就講到這裡。

從與會者的角度來看,我喜歡這次會議有很多海報展示。這是我第一次參加ICLR。我之前參加過的ML會議是NIPS,NIPS給我的感覺是非常大。在NIPS上仔細閱讀每一張海報感覺不太可行。在ICLR閱讀完所有海報是可能的,儘管你不一定真想這樣做。

我也很欣賞ICLR上企業招聘不像NIPS那樣荒謬。在NIPS,有些公司會送奇怪的指尖陀螺和彈簧玩具.......在ICLR,我得到的最奇怪的東西是一雙襪子,雖然奇怪,但也不是特別奇怪。

會後我跟進閱讀的論文:

Intrinsic Motivation and Automatic Curricula via Asymmetric Self-Play

Learning Robust Rewards with Adverserial Inverse Reinforcement Learning

Policy Optimization by Genetic Distillation

Measuring the Intrinsic Dimension of Objective Landscapes

Eigenoption Discovery Through the Deep Successor Representation

Self-Ensembling for Visual Domain Adaptation

TD or not TD: Analyzing the Role of Temporal Differencing in Deep Reinforcement Learning

Online Learning Rate Adaptation with Hypergradient Descent

DORA The Explorer: Directed Outreaching Reinforcement Action-Selection

Learning to Multi-Task by Active Sampling

ICRA 2018

ICRA 2018是我參加的第一個機器人會議。我不知道該期待什麼。我一開始做的是ML研究,後來轉去研究機器人,所以我的興趣更接近於學習控制,而不是製造新的機器人。我的理想設定是,我可以將真實世界的硬件視為抽象的。

再加上我對控制理論的貧乏理解,我對會議上的許多話題都不熟悉。儘管如此,還是有很多學習領域的論文,很高興我去參加了這個會。

在我確實瞭解的研究中,我很驚訝有這麼多的強化學習論文。看到它們中幾乎沒有人使用純粹的無模型的RL,有點有趣。對於ICRA,如果你的論文提出的模型在真實世界的機器人上運行過,那麼你被接受的可能性會大得多。這就迫使作者關注數據效率,因此對只做無模型的RL有極大的偏見。當我四處聽演講時,我不斷地聽到“我們將無模型強化學習與X結合在一起”,其中X是基於模型的RL,或者從人類的演示中學習,或者從運動規劃中學習,或者從任何可以幫助探索問題的東西中學習。

從更廣泛的層面看,這次會議是有實用性的。它雖然是一個研究會議,很多內容仍然是很推測性的,但它也覺得人們可以接受狹窄的、有針對性的解決方案。我認為這是不得不使用真正的硬件造成的另一個後果。如果需要實時運行模型,就不能忽略推理時間。如果需要從真正的機器人那裡收集數據,就不能忽略數據效率。真正的硬件並不關心你的問題是什麼。

(1)網絡必須能夠運行。

(2)無論您做何努力,賦於其何種優先級,都無法提高光的速度。

——RFC 1925

這讓和我交談過的許多ML研究人員感到驚訝,但這個機器人技術的會議並沒有像NIPS / ICLR / ICML的人那樣完全接受ML,部分原因是ML並不總是有效的。機器學習是一個解決方案,但它不能保證有意義。我的印象是,ICRA中只有少數人積極地希望ML失敗。只要ML能證明有用,其他人都很樂意使用ML。在某些領域,它已經證明了自己。我看到的每一篇跟感知相關的論文都以這樣或那樣的方式使用CNN。但是很少有人用深度學習來進行控制,因為控制是有很多不確定因素的。

像ICLR一樣, ICRA上也有很多公司舉行招聘或擺設攤位。跟ICLR不同的是,這裡的攤位顯得更有趣。大多數公司都帶了機器人來演示,這當然比聽招聘演說更有趣。

在去年的NIPS上,我注意到ML公司的展位讓我想起了Berkeley的職業招聘會。每一家科技公司都想招到Berkeley的應屆畢業生。這就像一場軍備競賽,看誰能提供最好的東西和最好的免費食物。感覺他們的目標是儘可能地讓自己看起來是最酷的公司,而不告訴你他們真正想僱傭你來做什麼。機器人技術還沒有走得很遠。它在增長,但沒有太多的宣傳。

我參加了幾個workshop,在那裡人們談論他們如何在現實世界中使用機器人,都很有趣。研究性會議傾向於集中討論研究和網絡,這使得人們很容易忘記研究可以有明確的、直接的經濟價值。有一個農業機器人相關的,談到使用計算機視覺來檢測雜草以及噴灑除草劑,這聽起來是好事。使用更少除草劑,殺死更少作物,同時減緩除草劑抗性的發生。

Rodney Brooks也有一個類似的精彩演講,他以Roomba為例,談到了將機器人技術轉化為消費產品所需的東西。他說,在設計Roomba時,他們先定了一個價格,然後將所有的功能控制在這個價格裡面。結果是,幾百美元的價格讓你在傳感器和硬件的選擇上只有很小的餘地,這就使得在設備上進行推斷的能力有嚴格的限制。

組織方面,做得很好。會議中心緊鄰印刷店,所以在註冊時,組織者說,如果你在特定期限內用電子郵件發送PDF文件,他們會處理剩下的所有流程。你所要做的就是在網上為你的海報付錢,然後在會議上拿出來。所有的演示都是在演示室中進行的,每個演示室都配有白板和一個架子,你可以在上面放置筆記本電腦來播放視頻。

會後我跟進閱讀的論文:

Applying Asynchronous Deep Classification Network and Gaming Reinforcement Learning-Based Motion Planner to a Mobile Robot

OptLayer - Practical Constrained Optimization for Deep Reinforcement Learning in the Real World

Synthetically Trained Neural Networks for Learning Human-Readable Plans from Real-World Demonstrations

Semantic Robot Programming for Goal-Directed Manipulation in Cluttered Scenes

Interactive Perception: Leveraging Action in Perception and Perception in Action


分享到:


相關文章: