深度神經進化加速：只需 4 個小時就在個人電腦上訓練出強化學習模型

2018-05-31 16:25:25 雷鋒網

雷鋒網 AI 科技評論按：在之前的文章 Uber論文5連發宣告神經演化新時代中，我們介紹了 Uber AI Lab 在深度進化算法方面的研究成果，從多個角度展現了進化算法解決強化學習問題的能力，也展現了進化策略 ES（evolution strategies）與梯度下降之間的聯繫。這些研究成果非常精彩、給人啟迪。不過當時我們沒有提到的是，這些成果消耗了相當多的計算資源：實際上論文中的實驗是在 720 到 3000 個 CPU 組成的大規模高性能計算集群上運行的，這樣的集群固然有充沛的計算能力運行進化算法，但在 Uber AI Lab 的研究人員們看來，這種級別的計算能力要求也就把領域內多數的研究人員、學生、企業以及愛好者攔在了門外。

近日 Uber AI Lab 開源了一組進化算法代碼，它的特點是可以高速（同時也更廉價地）進行進化策略研究。根據介紹，訓練神經網絡玩 Atari 遊戲的時間可以從原來在 720 個 CPU 組成的集群上花費 1 個小時，到現在在一臺桌面級電腦上只需要 4 個小時。這一點很重要，因為它極大地刷新了我們對進行這類研究所需的資源多少的認識，從而使更多的研究人員能夠著手研究。雷鋒網 AI 科技評論下面對其中的改進做個詳細的介紹。

神經進化技術是解決具有挑戰性的深層強化學習問題的一種有競爭力的替代方案，如玩 Atari 遊戲以及模仿人類運動。圖示出了用簡單遺傳算法訓練的深度神經網絡的行為。

是哪些修改使它更快，且可在單臺計算機上運行？

實際上，擁有多個虛擬內核的現代高端桌面 PC 本身就像一箇中型計算集群。如果能正確地並行執行訓練過程，在 720 個核心上如果需要運行 1 個小時的訓練過程，在帶有 48 核 CPU 的個人計算機上運行就需要 16 個小時。這雖然也是較慢的，但不會令人望而卻步。不過，現代臺式機還有 GPU，它們運行深度神經網絡（DNN）的速度很快。Uber AI Lab 的代碼能夠最大化並行使用 CPU 和 GPU。它在 GPU 上運行深度神經網絡，CPU 上運行要訓練的這個任務（例如電子遊戲或物理仿真器），並可以在每個批當中並行運行多個訓練過程，從而可有效地利用所有可用的硬件。如下所述，它還包含自定義的 TensorFlow 操作，這顯著提高了訓練速度。

允許在 GPU 上進行訓練需要對神經網絡的計算過程進行一些修改。在 Uber AI Lab 的研究人員的設置中，單個神經網絡在單個 CPU 上的速度比在 GPU 上更快，但是 GPU 在大批量類似的並行計算（例如，神經網絡的前饋傳播）時有很大好處。為了儘量榨乾 GPU 的計算能力，他們將多個神經網絡的前饋傳播聚合成批次。這樣做在神經網絡研究中是常見的，但通常是同一個網絡處理不同的輸入。然而，進化算法中上有一批參數不同的神經網絡，但是即使網絡不同，也可以用同樣的做法進行加速（雖然內存的需求會相應增加）。他們用基本的 TensorFlow 運算實現了神經網絡群的批量操作，並且它產生了大約 2 倍的加速，把訓練時間減少到了大約 8 小時。

不僅如此，研究人員們還覺得他們可以做得更好。雖然 TensorFlow 提供了所有需要的運算指令，但這些運算並不那麼適合於這種類型的計算。因此，他們添加了兩種自定義的 TensorFlow 運算，加起來可以再把速度提升兩倍，相比在之前一臺機器上最初提到的 16 小時，將訓練減少到大約 4 小時。

第一種定製的 TensorFlow 運算顯著加快了 GPU 上的運算速度。它是專為異構神經網絡計算定製的，在 RL 領域，每步運算操作所需時間具有不同的長度，這在 Atari 遊戲和許多模擬機器人學習任務中是確實存在的。它允許 GPU 只運行需要運行的那幾個網絡，而不需要在每次迭代中都運行整批固定的網絡集。

到目前為止所描述的改進使得 GPU 比 CPU 更具成本效益。事實上，GPU 是如此之快，以至於運行在 CPU 上的 Atari 模擬器無法跟上，即使已經使用了多處理庫做並行化加速計算。為了提高仿真性能，研究人員們添加了第二組定製的 TensorFlow 運算。這些將 Atari 模擬器的接口從 Python 改為定製的 TensorFlow 命令（reset，step，observation），利用了 TensorFlow 提供的多線程快速處理能力，因而沒有 Python 與 TensorFlow 交互時的典型速度下降問題。

總的來說，所有這些變化使得雅達利模擬器獲得了大約 3 倍加速。這些創新應該可以加快任何有多個並行任務實例的強化學習研究（例如 Atari 遊戲或 MujoCo 物理模擬器），這種多實例的做法在強化學習中也是越來越常見，例如分佈式深度 Q 學習（DQN）和分佈式策略梯度（例如A3C）。

只要有能力在 GPU 上運行多個網絡和及在 CPU 上運行更快的任務模擬器，挑戰就只剩下瞭如何讓計算機上的所有資源儘可能地運行。如果我們對每一個神經網絡做了一個前饋傳播，詢問它在當前狀態下應該採取什麼行動，那麼當每個神經網絡都在計算答案時，運行遊戲模擬器的 CPU 就空閒下來了。同樣，如果我們採取了行動，並問任務模擬器「什麼狀態會從這些行為中產生？」在模擬步驟中，運行神經網絡的 GPU 將空閒（注：下圖的左 1）。如果改為了（下圖的第 2 個）多線程 CPU + GPU 選項，從圖中可以看到雖然改進了單線程計算，但仍然是低效的。

一個更好的解決方案是將兩個或多個神經網絡子集與模擬器配對，並且始終保持 GPU 和 CPU 同時運行，這取決於準備採取哪一個步驟（神經網絡或模擬器）來更新來自不同集合的網絡或模擬器。這種方法是最右邊的「流水線 CPU + GPU」選項，如下圖右 1 所示。通過它以及上文提到的其他改進，使得我們訓練 4 百萬參數的神經網絡所需時間降到在一臺計算機上只需 4 小時。

在 RL 中優化異構網絡的種群調度。藍色框是任務模擬器，比如 Atari 模擬器或像 MujoCo 這樣的物理引擎，它可以有不同長度的運行時間片。直白的運行方式雖然使用了 GPU（左）但性能低，原因有兩個：1）GPU 的批大小為 1，沒有利用它的並行計算能力，2）存在 GPU 等待 CPU 的空閒時間，反之亦然。多線程方法（中間）允許通過多個 CPU 並行地運行模擬器，來減少 GPU 的等待時間，但是當 CPU 工作時，GPU 空閒，反之亦然。Uber AI Lab 設計的流水線實現（右）允許 GPU 和 CPU 有效地運行。這種方法也適用於同時運行的多個 GPU 和 CPU，實際上他們也就是這樣做的。

實驗更快、更便宜後的意義

Uber AI Lab 的代碼使研究社區的每一個人，包括學生和自學成才的學生，能夠快速實驗性地反覆訓練諸如玩 Atari 遊戲的挑戰性深度神經網絡，而後者是迄今為止僅限於資金充足的工業和學術實驗室的奢侈品。

更快的代碼會帶來研究進展。例如，新代碼使 Uber AI Lab 能夠只花很少的成本就可以為遺傳算法展開一個廣泛的超參數搜索，與他們最初報告的性能相比，將改進大多數 Atari 遊戲的性能。論文已經發表在 arXiv。同樣地，更快的代碼也催化了研究的進步，通過縮短迭代時間來改進深度神經進化，使他們能夠嘗試更多的任務中的每一個新的想法，並且更長時間地運行算法。

深度神經進化領域的研究現在非常火熱。除了 Uber AI Lab 自己的研究和 OpenAI 的研究，最近也有來自 DeepMind、谷歌大腦和Sentient的深度學習進展。Uber AI Lab 希望通過開源使他們的代碼有助於這個領域的發展。

以及最根本地，Uber AI Lab 的目標是降低進行這項研究的成本，使所有背景的研究者能夠嘗試自己的想法來改進深層神經進化，並利用它來實現他們的目標。

即便文中提到的 48 核 CPU 「桌面 PC」引起了一些爭議（7k 人民幣的 AMD 銳龍 Threadripper 1950X16 核 32 線程，15k 人民幣的 Intel i9 7980XE 18 核 36 線程），但也確實是十分有價值的研究成果。

論文地址：https://arxiv.org/abs/1712.06567

via: Accelerating Deep Neuroevolution: Train Atari in Hours on a Single Personal Computer，雷鋒網 AI 科技評論編譯整理。

分享到:

閱讀更多 雷鋒網 的文章

關鍵字: 進化深度神經

人類起源可否是猴子【進化】的嗎？

02.28 “進化”我們的身體是在進化？還是退化？

人的意識是怎麼產生的？

進化進化進化

病毒是人類進化的催化劑

進化-人類的必經之路

病毒的前世今生以及未來的意義

深度學習尋找肺炎病毒宿主：AI“進化”的“一小步”

01.04 銀河系的形狀的“進化”它是如何從漩渦星系改變到棒旋星系的

銀河系的形狀的“進化”它是如何從漩渦星系改變到棒旋星系的

03.20 為贏得億萬年以來的戰爭，兩個外星種族進行了殘酷的身體進化

2018年度諾貝爾化學獎解讀：人類掌控中的「進化」

女性的勝利：「進化」的諾貝爾化學獎

5.08億年前？動物的出現可能比之前認爲的更早

新聞「全歐了」：全球上演好萊塢大片人類要「進化」了？

人類或是宇宙中唯一的文明這將促使我們“進化”

又一頂尖中國科學家撤離硅谷，回國力助阿里，多次刷新世界紀錄

大家都知道，由於在二戰結束後，美國便將國家的發展重心轉移至科技層面之上，憑藉著在研發方面的鉅額投入，使得美國一舉成為世界超級大國，在眾多高科技領域都享有著絕對的霸主地位。而彙集了眾多尖端科技公司的硅谷，也成為了全球多數人才所向往的地方。

《科學》發佈全球首個新冠疫苗動物實驗研究結果，來自中國科研團隊；騰訊視頻、愛奇藝等9家公司發佈行業自救聯合倡議書

1|《科學》發佈全球首個新冠疫苗動物實驗研究結果，來自中國科研團隊。5月7日，騰訊視頻、愛奇藝、優酷等9家影視公司聯合發佈《關於開展團結一心

5人口居住地將熱成撒哈拉？

一項由中美歐學者共同完成的最新研究顯示，除非溫室氣體排放量下降，否則50年後，地球上1/3人口居住的地區將如現在的撒哈拉沙漠一樣炎熱。

治理太湖藍藻有了新突破

光明日報訊西交利物浦大學研究人員最新研究成果指出，太湖藍藻治理除了減氮控磷，還需控銅。該研究已發表於環境科學與生態學水資源領域的國際頂級期刊《水研究》，這一成果對於太湖治理將有重要參考意義。

中國首次太空3D打印成功完成

PingWest品玩5月7日訊，據央視網消息，新一代載人飛船試驗船此次搭載了一臺我國自主研製的“複合材料空間3D打印系統”，這是我國首次太空3D打印實驗，也是國際上第一次在太空中開展連續纖維增強複合材料的3D打印實驗。

天文學家們稱已經找到了離地球最近的黑洞

據外媒The

我國首次太空3D打印成功完成

在新一代載人飛船試驗船上搭載了一臺“3D打印機”，這是我國首次太空3D打印實驗，也是國際上第一次在太空中開展連續纖維增強複合材料的3D打印實驗。

高美生物Gomics與諾恩生物Known Biotech合併，加速致力於癌症早檢研發及推廣

孫德強博士在Nature

一生盡瘁，國士無雙！#2020年已有15位院士去世#

#網羅天下#【一生盡瘁，國士無雙！#2020年已有15位院士去世#】5月3日，中國科學院院士張乾二逝世，享年93歲。2020年以來，我國已痛失15位兩院院士，包括6位中國科學院院士、9位中國工程院院士。他們獻身科研，嘔心瀝血，這些“國之脊樑”，值得我們永遠銘記↓↓轉發，送別！

抗病毒藥物重大發現甘草苷可抑制新冠病毒複製

據報道，北京大學謝正偉團隊和軍事醫學科學院秦正峰團隊合作，發表題為“人工智能系統顯示，甘草苷通過模仿I型干擾素抑制SARS-CoV-2”的論文，該研究通過其自主研發的人工智能藥效預測系統發現甘草的主要成分之一甘草苷能抑制SARS-CoV-2在Vero細胞中的複製，揭示了甘草苷潛在

奇怪的宇宙！宇宙正在以奇怪的方式擴張新型的暗物質如何解釋？

正常物質組成行星，恆星，您和我的物質僅佔宇宙總構成的5%。我們真的不知道它們是什麼，但是它們可以幫助解釋，為什麼我們能看到的東西?

小行星威脅！最近，小行星的超近距離飛越 10％的機會與地球相撞

美國宇航局行星防務官林德利·約翰遜在4月28日發佈的聲明中說:

院士領銜科技領軍雲南高層次人才培養支持計劃成績斐然

中國科學院2019年新增院士名單中，中國科學院昆明植物研究所研究員郝小江的名字位列其中，成功當選為生命科學和醫學學部院士。2018年3月，雲南省啟動了“高層次人才培養支持計劃”，下設3個層次9個專項。科技領軍人才專項是其中第1層次的唯一專項，郝小江院士就是其中之一。

第100次撞擊!天文臺觀察小行星撞擊月球活動升溫小行星最小5釐米

圈出的撞擊是近地天體月面撞擊和光學瞬變觀測計劃偵測到的第100次，是沙迦月球撞擊觀測臺在2020年3月1日首次觀察到的撞擊。

5500萬公里外，探測器拍到這顆星球古老河流痕跡，會有遠古生命嗎

大家好，我是小猩猩尋找地外生命，應該是我們未來很長一段時間內的一個目標。相信很多朋友也看到了我們國家500米口徑球面射電望遠鏡“天眼”開始搜尋地外文明的消息。從目前的探索情況來看，在我們太陽系內暫時還沒找到地外生命的跡象，更別說是高級的地外文明瞭。

今年最後一次XXL號“超級月亮”！不過

也是最後一次“超級月亮”此次“超級月亮”從5月7日晚18時45分開始出現，到5月8日凌晨2點9分月球運行到自己的近地點，再到8日10時35分月亮、地球和太陽排列在同一條直線上，在此期間大家都可以看到超級月亮。

宇宙也有生命？科學家研究後給出大膽猜想：“它”是什麼？

近些年來人類的科學技術不斷的發展，對世界的認知也越來越多，而我們也都知道宇宙是一個非常大的天體，甚至大到無邊無際，今天將來雖然科學家不斷的對宇宙進行研究，但始終沒有揭開宇宙的奧秘，然而這不影響科學家提出假設，認為宇宙也是有生命的那麼如果宇宙也是有生命的話，這個生物究竟有多大呢？

誰是人類文明之光？誰又是人類公敵？

新冠病毒疫情，已經明確揭示了誰是人類文明之光，誰又是人類公敵。一、到底誰是【人類文明之光】？

俄專家談月球採礦前景

據俄羅斯衛星通訊社莫斯科5月6日報道:

假如地球是一個生命體，人類最終會被清理嗎？

地球是人類生存的家園，它為人類提供了生存所需的能量、環境、空氣等等，可以說沒有地球就沒有人類。我們知道，地球已經存在了幾十億年，在人類出現之前，它發生了什麼事情我們無法得知。但自從人類的出現後，地球的生態系統尤其是自然環境受到了劇烈的影響，比如森林、河流等等。

太陽好像有特殊情況？科學家發現太陽磁性相當萎靡

我們觀測到了大量的太陽耀斑，比如1859年的卡靈頓事件，它產生了遠至加勒比海的北極光，並在電報線路中驅動電流。但幸運的是，太陽基本上是平靜的，可以說與其他恆星相比異常平靜。

宇宙大爆炸理論，讓哲學家靜悄悄的走開

宇宙大爆炸理論，最初是從廣義相對論裡面推導出來的一個結果。為宇宙大爆炸理論作出貢獻的科學家，如愛因斯坦、哈勃、勒梅特、伽莫夫他們，都名列教科書，名字熠熠生輝，可是有多少人還記得住當初那個嘲笑過愛因斯坦的柏格森呢?

原子被放大一億倍後，一個宇宙的模型出現了，微觀世界竟如此真實

自古以來，人類就對宇宙充滿好奇之心，而到了近現代隨著人類相繼發明了天文望遠鏡、火箭、宇宙飛船、太空探測器等，人類對宇宙的認識得到很大提高，但是人類對宇宙的真實結構依然一無所知。

中國科學家們創造了一種不用化石燃料的“空氣等離子”發動機原型

根據週二發表在《AIP

即將取得有關新冠病毒重大發現的華人研究人員在美國被槍殺

Researcher

黑洞真存在嗎？根據熵增定律，黑洞在宇宙中就不應該存在

黑洞曾經是廣義相對論中預言的天體，但後來真發現了這種變態的天體，而到了去年的4月10日，全球的射電望遠鏡合作對M87*黑洞進行了成像，經過2年多時間的處理終於發佈，大家看到的黑洞確實是真實存在的，但在黑洞被看到之前，早就有很多證據表明其存在了!

地球上的水究竟是從哪裡來的？科學家歷時20年終於找到正確答案

地球雖然名字叫做“地球”，但是地球卻是一顆名副其實的“水球”，地球的表面為

為何說一沙一世界？將沙子放大300倍，彷彿進入了另一個世界

人類自數百萬年前誕生以來，一直都在對這個世界，這個宇宙進行著無盡的探索。只不過由於古時候沒有明顯的科學體系，那個時候的人們只能通過自己的雙眼去觀察這個世界，觀察星空，從而得出一些猜想和結論。

明晚“超級月亮”又來了

天文學專家介紹，繼2月9日、3月10日和4月8日之後，今年的第四次也是最後一次“超級月亮”將於本月7日現身天宇。

宇宙星體那麼多，為什麼地球沒有和其它星休撞擊？

每當太陽落山，夜晚來臨之後，天上的星星也會不斷出現。我們仰望星空，可以看到無數的星星，古時候的一些星宿師們正是依靠研究這些星星的位置和佈局來初步探索這個宇宙的奧秘。

在6.5光年外，距離我們最近的棕矮星上，發現類似木星的雲帶

Luhman

「深度」“胖五”B剛發射成功，美國搞“月球圈地”想排擠中國？

昨天，長征-5B運載火箭剛剛成功完成首飛，今天美國方面就搞出了一個在月球開發方面十分惡劣的“圈地計劃”。

探測飛船在這顆距地球6億公里的星球上，再次發現了數個橢圓白點

太陽系有八大行星，每一個行星都有自己的特色，地球是其中唯一的智慧生命星球。要問太陽系八大行星哪個星球最神秘，相信不少人會回答地球。事實上，人類生活在地球上數百萬年，雖然對這顆星球還不是完全瞭解，但是地球的不少秘密已經被我們揭開，因此它並不是太陽系最神秘的行星。

為什麼海市蜃樓很難找到原型？真的是平行世界的折射？

這個世界有很多神奇的事物，有的隨著人類文明的不斷展得到了破解，尤其是隨著人類走進科技發展的時代之後，對過去不理解，神秘的很多事物都有了科學的解釋，不過仍然存在著很多無法用現代科學解釋的事物，還有一些雖然能夠用科學來解釋，卻反而讓人們產生了更多的疑問。

宇宙有最大的恆星能有多大？有直徑達到一光年的恆星嗎？

宇宙自138億年前發生大爆炸以來，形成了浩瀚廣闊的空間，同時也誕生了無數各類天體。研究天體，人們喜歡看它有多大，宇宙的主流天體還是以恆星和行星為主，恆星是行星的老大，每一個恆星周圍都會數量不等的行星圍繞它運動，比如太陽系，太陽的質量佔到了整個太陽系質量的98.

達能提供5萬刀獎學金用於酸奶和腸道菌群探索

今年是達能北美分公司開展腸道菌群、酸奶和益生菌獎學金項目的第

除了衛星導彈技術，錢學森還留下這一科技，全球只有五個國家有

文/貓行圖/網絡除了衛星導彈技術，錢學森還留下這一科技，全球只有五個國家有！如果要說起錢學森想必每一箇中國人都不會忘記他，正是因為有了錢學森的幫助，才使得近代中國的發展，有了飛躍的提高。

英國遺傳學研究報告：任何想要找到0號病人的想法都是不現實的

倫敦大學學院遺傳學研究所的遺傳學研究員弗朗索瓦·鮑盧克斯（Francois

新疆的“死海”正在復活，水都是怎麼來的？原來是這樣

地球的資源都是非常珍貴的，我們曾經總是說地球資源非常豐富，但是在人類的不斷髮展過程中，人類十分依賴地球資源，對地球資源進行不斷的開採，導致地球上的資源變得越來越匱乏。

又一頂尖科學家離開美國！美科技界炸鍋：他居然回國發展AR科技

又一頂尖科學家離開美國！美科技界炸鍋：他居然回國發展AR科技相信不少IT圈的人都知道最近中國科技圈發生的大事，賈揚清帶著阿里雲的EMR團隊再次刷新了TPC-DS的性能紀錄，這也是大數據領域門檻最高的比賽。

用基因“拼圖”！歐洲首次人工合成活的新冠病毒，一週之內可大量生產

近日，發表在《自然》上的一篇論文“Rapid

霍金留下的這幾個預言，有一個正在醞釀，或關乎人類的生死存亡

據2020年5月5日的新聞報道，據發佈在《美國國家科學院院報》上的一篇題為《Future

星系碰撞和星系併合，天體物理學的前沿研究

在1923年的時候，來自國美的天文學家哈勃，第一次證實了河外星系是真實存在的。從這以後，人們開始越來越多的發現到了不同的河外星系，形態各異。由於大型望遠鏡和空間望遠鏡的研製成功，在對外星系的研究和探索中，已經成為天體物理學的前沿研究，這裡面最引人矚目的就是星系之間的碰著和併合。

超級月亮又來了！這將是2020年最後一次

今年的超級月亮會有四次。分別是2月9日、3月10日、4月8日。以及5月7日，即今年最後一次超級月亮。

重磅：Nature全線137種期刊加入中國知網

中國知網與施普林格-自然集團簽署合作協議，《自然》全線137種期刊加入CNKI平臺。《自然》系列含84種Nature

我國“一箭9星”發射成功，印度“一箭百星”為什麼被外媒吐槽

去年年底，中國實現了一箭9星的任務，受到了世界各國的讚美。一箭9星相比印度的一箭百星差遠了，為什麼印度不僅沒有獲得稱讚，反而被西方媒體吐槽呢？一箭多星，可以將消耗的成本降到最低。這種技術最早是由美國提出來的，中國第一次發生一箭多星是在1981年的時候。

5月7日，偽超級月亮同樣照亮夜空

最近看到有媒體報道，說5月7號，會再次發生“超級月亮”。一直關注我們節目的小夥伴們可能都納悶兒了，這“超級月亮”也未免太頻繁了吧!

愛因斯坦：宇宙都是設計好的！難道所有"掙扎"都是枉費？

愛因斯坦偉大理論背後最重要的思想就是對稱性，這與

機器人或出現意識？可能導致人類滅亡？是真的嗎？

在科學中，人工智能的發展是人類未來的一個趨勢，這個方向是無法進行改變的，然而人工智能技術會達到什麼狀態，這是如今無法進行與判斷的，當然變得越來越好是可以肯定的。

總覺得外星人科技更先進？但是人類可能就是最高級文明瞭！

在人們被自認為無法想象生物多樣性的想法弄得浮想連翩之前，我們知道了某些東西。它需要一些複雜的化學反應來製造生命，這意味著它必須是以碳或者以硅為基礎，它們是唯一能夠產生複雜化學反應的原子。第三代恆星將137億年時間限制到70~80億年，這段時間還是很漫長。