01.12 Jeff Dean 再執筆:一文看盡 2019 谷歌 AI 重大突破

對於谷歌的研究團隊來說,2019 年是令人興奮的一年。Google Research 通過多種方式推動技術研究工作,包括基礎計算機科學研究成果和出版物,以及多項研究被應用在谷歌的新興領域(如醫療保健和機器人)、開源軟件貢獻,以及與谷歌產品團隊的密切合作,所有這些都旨在提供有用的工具和服務。接下來,我們將重點介紹谷歌研究院在 2019 年所做的一些工作。

谷歌研究院的使命在於解決各類長期存在且意義重大的難題,藉此為人們的日常生活帶來巨大助益與便利。2019 年,為了繼續實現這一目標,我們在廣泛的基礎研究領域取得了多項進展,包括著手將研究成果應用於醫療保健與機器人等新興領域、開源大量代碼,並繼續與谷歌產品團隊合作,共同打造用戶喜聞樂見的各類工具與服務。

2020 年已經到來,我想我們有必要對過去一年中做出的研究加以回顧,並展望未來幾年內需要進一步解決的問題。本著這種思路,我們希望通過本文對谷歌研究人員以及工程師們在 2019 年期間做出的重點研究工作進行一番梳理。

合乎道德的 AI 技術使用方式

2018 年,我們發佈了一組 AI 原則,旨在建立一整套用於對產品內機器學習等技術進行評估的框架。2019 年 6 月,我們發佈了另一項重要更新,希望說明如何在研究與產品的開發生命週期之內將這些原則付諸實踐。由於該原則涉及 AI 與機器學習研究社區當中更為廣泛的多個活躍領域(例如機器學習系統中的偏見、安全性、公平性、問責制、透明度以及隱私性等),因此我們希望能夠利用各個領域中最先進的技術,同時結合我們的研究成果以顯著推動與之相關的技術創新。

例如,這一年中,我們:

  • 發佈了一篇關於透明性工具的研究論文,這款工具負責為我們的多種雲 AI 產品提供 Model Cards。我們還在文中展示了一種面向雲 AI 視覺 API 對象檢測功能的 Model Card 示例。

相關鏈接: https://research.google/pubs/pub48120/

Jeff Dean 再執筆:一文看盡 2019 谷歌 AI 重大突破

  • 展示了 Activation Atlasses 如何幫助探索神經網絡行為,並提升機器學習模型的可解釋性。
  • 發佈了 TensorFlow Pirvacy ,這是一套開源代碼庫,用於在機器學習模型訓練當中引入差異性隱私保障機制。
  • 公佈公平性指標 Fairness Indicators 的 beta 版,希望幫助機器學習從業者們發現機器學習模型當中存在的不公平或者意外影響因素。

在 Fairness Indicators 當中點擊對應柱形部分,即可在 What-If Tool 中查看該部分的全部相關數據點。在上圖的示例中,為顯示所有帶有“female”標籤的數據點。

  • 在 KDD’19 上,發表關於如何將成對比較與正則化合並至大規模生產推薦系統當中,從而提高機器學習公平性的論文。
  • 在 AIES’19 上發表一篇論文,主要探討如何在機器學習研究中保障生產分類系統的公平性,同時描述了我們所採用的公平性指標——即條件平等,主要強調機會均等前提下的分佈差異。
  • 在 AIES’19 上發表論文,探討如何在文本分類中保證與事實相左的公平性。論文提出這樣一個問題:“如果示例中引用的敏感屬性發生變化,那麼預測結果會受到怎樣的影響?”以此為基礎,我們希望改進在線不良內容審核的生產系統。
  • 發佈新的數據集,用於幫助識別 deepfakes 偽造內容。
Jeff Dean 再執筆:一文看盡 2019 谷歌 AI 重大突破

造福社會的 AI 技術

機器學習在解決各類重要社會問題方面具有巨大的潛力。我們也一直在這個領域展開探索,致力於幫助人們利用機器學習的創造力與技術成果解決更多問題。洪水是地球上最常見也最致命的自然災害,每年影響約 2.5 億人口。我們一直在利用機器學習、計算以及質量更高的數據源做出更準確的洪水預報,而後將可行的警報發送至受災地區全體居民的手機端。我們還召開了一個研討會,邀請眾多在洪水預報、水文學以及機器學習等方面掌握專業知識的研究人員匯聚在一起,與谷歌共同討論在洪水預防與治理這個重要問題上的進一步合作可能。

Jeff Dean 再執筆:一文看盡 2019 谷歌 AI 重大突破

除了洪水預報工作之外,我們還一直在開發技術以更好地瞭解世界上的各類野生動植物。我們目前與七個野生動植物保護組織開展合作,利用機器學習技術幫助分析攝像機拍下的野生動植物數據;與美國國家海洋大氣局合作,幫助他們從視頻中發現不同的鯨魚種類以及錄製到的水下聲音。我們還創建併發布了一整套工具,以機器學習為基礎實現更多新型生物多樣性研究。

作為第六屆精細視覺分類研討會上的一部分,來自加納阿克拉的谷歌研究人員與馬凱雷雷大學 AI 及數據科學研究小組的成員們開展合作,共同發起了一場關於木薯類植物病變分類的 Kaggle 競賽。木薯是非洲第二大碳水化合物來源,因此此類植物的健康事關非洲的食品安全。我們很高興看到來自 87 支隊伍的超過 100 名參賽者加入這場競逐。

2019 年,我們還更新了谷歌地球 Timelapse,讓人們能夠更高效且直觀以觀察地球在過去 35 年中的變化情況。此外,我們還一直與學術研究人員合作,希望利用新的隱私保護方法整理關於人類流動性的數據,進而為城市規劃者提供降低碳排放水平、提高環境利用效率的參考性信息。

我們還利用機器學習強化兒童教育。聯合國認為,目前全球仍有 6.17 億兒童沒有基本的識字能力,而這將直接決定其未來的生活質量。為了幫助更多孩子學會閱讀,我們的 Bolo 應用採用語音識別技術,可實時為學生提供指導。為了降低使用門檻,我們對應用進行了優化,確保其能夠在低端手機上以離線方式運行。在印度,Bolo 已經幫助 80 萬兒童閱讀故事並跟讀 10 億個單詞。早期結果令人鼓舞:在印度 200 個村莊進行為期 3 個月的試點之後,參與者中閱讀能力提高的比例達到 64%。

Jeff Dean 再執筆:一文看盡 2019 谷歌 AI 重大突破

對於年齡較大的學生,Socratic 應用程序可以幫助高中生們解決數學、物理以及 1000 多個與學科教育相關的複雜問題。這款應用可根據照片與口頭提問自動識別出題目中涉及的基本概念,並鏈接至最合適的在線資源。與蘇格拉底的教育模式類似,Socratic 應用不會直接回答問題,而是引導學生自主發現答案。我們很高興能夠通過 Bolo 與 Socratic 等方案,推動全球範圍內的教育質量提升。

此外,我們決定由 Google.org 向優勝方提供 2500 萬美元贈款。社會反響巨大,我們收到來自 119 個國家的 2600 多份經過認真規劃的提案。最終,20 個組織憑藉其解決重大社會與環境問題的潛力脫穎而出,成為我們的第一批受贈者。下面一起了解他們帶來的卓越方案:

  • 無國界醫生基金會(MSF)希望開發一款免費的智能手機應用,利用圖像識別工具幫助資源分管地區的臨床工作人員(目前在約旦地區進行試驗)分析抗微生物圖像,並在適當時提出抗生素使用建議以解決特定患者的感染問題。
  • 目前,仍有超過 10 億人口以散戶形式從事農業勞作。一場蟲害侵襲就會毀掉全部農作物乃至他們的生計。Wadhwani AI 利用圖像分類模型對害蟲進行識別,進而提出與農藥選擇以及噴灑時機相關的建議,最終幫助農戶提高作物產量。
  • 在熱帶雨林深處,非法砍伐一直是影響氣候變化的重要因素。Rainforest Connection 利用深度學習進行生物聲音監測,同時支持利用淘汰掉的陳舊手機跟蹤熱帶雨林健康狀況並檢測出威脅活動。
Jeff Dean 再執筆:一文看盡 2019 谷歌 AI 重大突破

AI 技術在其他領域的應用

AI 技術在其他領域的應用,同樣是我們高度關注的重點方向。我們已經通過多方協作發表了大量論文,2019 年的重要成果包括:

  • 在《對蒼蠅大腦進行交互式自動 3D 重建》論文中,我們開發出一套機器學習模型,並通過其中的各個神經元映射並跟蹤蒼蠅大腦的完整結構。
Jeff Dean 再執筆:一文看盡 2019 谷歌 AI 重大突破

論文地址: https://ai.googleblog.com/2019/08/an-interactive-automated-3d.html

  • 在《探索更好的偏微分方程(PDE)的模擬方法》中,我們展示瞭如何利用機器學習加速 PDE 計算,從而為氣候科學、流體力學、電磁學、熱傳導以及多種其他一般性基礎計算問題帶來效率提升。
Jeff Dean 再執筆:一文看盡 2019 谷歌 AI 重大突破

論文地址: https://ai.googleblog.com/2019/07/learning-better-simulation-methods-for.html

  • 我們通過《嗅覺學習:利用深度學習預測分子的氣味特性》對自然界中的氣味因素進行了探究。我們展示瞭如何利用圖神經網絡(GNN)直接預測單一分子的氣味描述符,全程無需引入任何人為規則。

論文地址: https://ai.googleblog.com/2019/10/learning-to-smell-using-deep-learning.html

Jeff Dean 再執筆:一文看盡 2019 谷歌 AI 重大突破

  • 能夠將化學與強化學習技術相結合,我們提出了一套分子優化框架。
  • 機器學習還能夠幫助我們在藝術與創作領域取得突破。藝術家們發現將 AI 與 AR 相結合以創造出新型作品形式的方法,包括機器舞蹈、舞蹈編排、利用機器學習工具創作新的旋律等。如今,即使新手也能輕鬆使用機器學習技術。為了紀念 J.S. 巴赫,我們開發出一款由機器學習技術支持的即興樂譜生成工具:只要創作出旋律,該工具就能夠按照巴赫的風格製作相匹配的和聲。

輔助技術

機器學習能夠為我們的日常生活提供更為個性化的輔助。觀看美麗的圖像、聆聽喜愛的歌曲或者與親朋好友交談,都是我們生活中必不可少的組成部分。但是,要將十幾億人聯繫起來,單憑這種直觀對接顯然無法實現。機器學習技術能夠將這些視覺、聽覺以及語音信號轉換為其他信號,並在統一的管理之下改善人們對於周遭環境的訪問能力。我們在這一年中推出的輔助技術包括:

  • Lookout,幫助失明或者視力低下的用戶識別周圍信息。其採用與 Google Lens 類似的基礎技術,允許我們將手機指向四周以搜索目標物體並與之互動。
  • Live Transcribe,有望幫助聾啞或者聽力障礙人士在日常交流中更加獨立便捷。即使對方使用的是他國語言,用戶也可以即時將內容轉錄並翻譯為易於理解的形式。
  • Project Euphonia,負責進行個性化語音到文本轉錄。對於患有 ALS 以及其他可能導致器具不清或發音不准問題的用戶,這項研究提供的自動語音識別(ASR)模型的實際效果上遠超以及同類方案。
  • 與 Project Euphonia 類似, Parrotron 利用端到端神經網絡幫助用戶改善交流,但主要針對語音到語音自動轉換(而非轉錄)。Parrotron 提供語音接口,方便更多用戶輕鬆使用。
  • 目前,互聯網上存在數百萬張未加文字說明的圖像。谷歌提供的圖像描述可以幫助盲人或者弱視用戶理解這些無標記圖像。當屏幕閱讀器發現沒有配套描述的圖像或者圖形時,Chrome 瀏覽器現在可以自動創建相關說明。
  • 我們開發出 Les for Google Go,這是一款以音頻形式讀取可視文本的工具,能夠幫助那些識字不多的用戶較為順暢地理解文本所表達的內容。

讓手機更智能

我們的大部分工作,在於通過機器學習技術為手機提供更多新功能,真正讓個人設備實現智能化提升。通過開發出可在手機上運行的強大模型,我們得以保證各類常規手機功能擁有更強的響應能力,甚至可在飛行模式或者斷風情況下正常使用。目前,我們已經開發出能夠運行在手機上的準確語音識別模型、視覺模型以及手寫識別模型,這也為後續更多強大新功能的出現鋪平了道路。2019 年,我們實現的重要成果包括:

  • 利用 Live Caption 實現手機自動字幕生成功能,可始終為設備上播放的全部視頻提供轉錄字幕。
Jeff Dean 再執筆:一文看盡 2019 谷歌 AI 重大突破

  • 開發出功能強大的 Recorder 新型轉錄應用,可幫助用戶索引音頻信息並直接檢索音頻內容。
  • 改進谷歌翻譯中的拍照翻譯功能,我們可以指向文本當中看不懂的特定部分,系統會結合上下文立即進行翻譯。
Jeff Dean 再執筆:一文看盡 2019 谷歌 AI 重大突破

  • 發佈 ARCore 中的 Augmented Faces API,讓更多新的實時 AR 自表示工具成為可能。
Jeff Dean 再執筆:一文看盡 2019 谷歌 AI 重大突破

  • 演示了設備上的實時手部跟蹤功能,為用戶提供手勢交互以及設備控制的全新方式。
Jeff Dean 再執筆:一文看盡 2019 谷歌 AI 重大突破

  • 改進基於 RNN 的屏幕軟鍵盤手寫識別效果。
  • 發佈一種利用智能手機攝像頭實現的全球導航方法,可幫助用戶更準確地定位當前所在位置,讓我們輕鬆找到前往目的地的道路。
Jeff Dean 再執筆:一文看盡 2019 谷歌 AI 重大突破

聯合學習是谷歌研究人員在 2015 年發明的一種強大機器學習方法。在它的幫助下,眾多客戶(例如個人用戶乃至企業整體)可以協同訓練模型,同時保持訓練數據的分散性。如此一來,我們就能在大規模學習系統中有效保護隱私屬性。如今,我們正越來越多地在自有產品及功能當中使用聯合學習,同時也在努力推動這一領域中眾多研究工作的發展。2019 年,谷歌研究人員與來自 24 個學術機構的學者們合作,共同撰寫了一篇關於聯合學習的論文,重點介紹了過去幾年中這項技術的進展以及當前仍然存在的開放性研究問題。

相關鏈接: https://arxiv.org/abs/1912.04977

過去幾年,計算影像的進步使得智能手機的圖像質量取得了巨大進步,2019 年當然也不例外。這一年中,我們讓自拍效果更上一層樓,提供專業級別的景深圖像處理功能,同時也在 Pixel Phone 上通過 Night Sight 功能讓拍攝天文照片成為可能。關於這方面工作的更多技術細節,請參閱我們的《在極弱光條件下進行多幀超分辨率及移動攝影》的論文。我們的工作只有一個目的——幫助大家拍下漂亮的照片,紀念生活中的每一個神奇瞬間。

Jeff Dean 再執筆:一文看盡 2019 谷歌 AI 重大突破

健康

2018 年末,我們將谷歌研究院健康團隊、Deepmind Health 以及谷歌硬件部門的一支隊伍(專注於與健康相關的應用)合併起來,組成了 Google Health。2019 年,我們繼續推進這一領域中的研究,與多家醫療合作伙伴發表了研究論文並開發出多款工具。下面來看過去一年中的相關亮點:

  • 我們發現,利用深度學習模型分析乳房 X 光片,能夠幫助醫生髮現乳腺癌病變。在美國,有八分之一的女性或早或晚將受到這種疾病的影響,而深度學習模型的診斷準確性高於人類專家,且誤報與漏報比例更低。無論是在對美國某地患者的檢測,還是對英國醫院提供的脫敏數據進行分析,這套模型都帶來了類似的準確率改善。
Jeff Dean 再執筆:一文看盡 2019 谷歌 AI 重大突破

通過機器學習正確識別出人類難以發現的癌症病例。

  • 我們證明,利用深度學習模型進行皮膚疾病診斷,其準確率要高於初級醫師,甚至相當或者略好於皮膚病理學家。
  • 通過 Google Health、DeepMind Health 以及美國退伍軍人事務部(VA)專家的聯手合作,機器學習模型被證明在預測急性腎操作(AKI)疾病的發作方面表現突出。提前兩天發現問題,能夠有效避免患者因此遭受的折磨。未來,醫生有望提前 48 小時著手處理這類嚴重疾病。
  • 我們與多家合作伙伴組織將深度學習技術引入電子健康記錄系統。
  • 我們在預測肺癌方面獲得了可喜的進步。在這項早期研究中,我們嘗試利用一種深度學習模型檢查單項 CT 掃描結果,其診斷能力與放射科醫師基本相當,有時甚至更高。事實證明,早期發現肺癌能夠大大提高患者的生存幾率。
Jeff Dean 再執筆:一文看盡 2019 谷歌 AI 重大突破

  • 我們與 Verily 以及來自印度及泰國的醫療合作伙伴聯手,繼續擴大部署並評估我們用於檢測及預防眼科疾病的機器學習工具。
  • 我們發表了一篇關於利用增強現實顯微鏡診斷癌症的研究論文,病理學家能夠在通過該顯微鏡檢查組織的同時,獲取載玻片上其他重要信息的實時反饋。
  • 我們為病理學家構建起以人為本的相似圖像搜索工具,允許他們通過檢查類似病例以做出更加高效的診斷。

量子計算

2019 年,我們的量子計算團隊首次實現了“量子霸權”,即量子計算機在執行某項任務時,表現出遠超世界上最強經典計算機的執行速度。二者的成績對比為 1 萬年對 200 秒。

Jeff Dean 再執筆:一文看盡 2019 谷歌 AI 重大突破

左圖:藝術家描繪的低溫恆溫器內 Sycamore 處理器。右圖:Sycamore 處理器實拍照。

量子計算機在材料科學、量子化學以及大規模優化等領域中將發揮重要作用,但要真正實現目標,我們必須進一步推動技術發展。目前,我們的關注重點主要放在量子誤差校正方面,這是為了進一步延長量子計算系統的運行時間。我們還在努力簡化量子算法的表達,改善硬件控制難度,同時也找到了利用經典機器學習技術(例如深度強化學習)構建高可靠性量子處理器的方法。2019 年的成就令人振奮,我們相信這一切都將為量子計算的廣泛應用奠定堅定的基礎。

通用算法與理論在通用算法與理論方面,我們繼續延著算法基礎與應用的方向前進,同時也對圖挖掘等方面進行了一番探索。

我們在 VLDB 19 上發表了一篇題為《面向數據中心應用程序的緩存感知負載均衡》的論文,看起來好像有點晦澀,再來個平易近人般的標題,《通過妙招將數據中心的服務容量提高 40%!》。論文介紹了我們如何利用圖的均衡分區對 Web 搜索後端服務系統中的緩存進行指定,從而將閃存驅動器的查詢吞吐量提高了 48%,並最終將後端整體搜索吞吐量提高 40%。

相關鏈接: http://www.vldb.org/pvldb/vol12/p709-archer.pdf

Jeff Dean 再執筆:一文看盡 2019 谷歌 AI 重大突破

跨 Web 搜索服務頁的 Flash IO 請求(由緩存未命中引起)熱圖。三個駝峰分別代表隨機葉選擇、負載均衡以及緩存感知負載均衡(從左至右)。各線條表示第 50、90、95 以及 99.9 百分位。VLDB 19 論文,《面向數據中心應用程序的緩存感知型負載均衡》

在 ICLR 2019 上發表的一篇題為《新瓶裝舊酒:強化學習發現經典優化算法》的論文中,我們發現了算法與機器學習之間的新聯繫,展示了強化學習如何為幾個經典的在線優化組合問題(例如在線匹配與分配)高效找到最佳、最差以及統一算法。

相關鏈接: https://openreview.net/pdf?id=rkluJ2R9KQ

我們在可伸縮算法方面的工作主要涉及大數據集的並行、在線與分佈式算法。在 FOCS 19 的最新論文當中,我們為互連組件找到了近乎最佳的大規模並行計算算法。我們的另一組論文則改進了用於匹配(包括理論與實踐兩方面)與密度聚類的並行算法。第三項工作則是在黑盒模型中實現子模函數的自適應優化,這類模型在特徵選擇以及詞彙壓縮等場景中具有多種應用。在 SODA 19 的論文中,我們提出一種在三大方面近乎最優的亞模算法,包括逼近因子、舍入複雜度以及查詢複雜度。在 FOCS 2019 的另一篇論文中,我們為 PCA 及列子集選擇提供了一種在線乘法近似算法。

相關鏈接: https://arxiv.org/abs/1910.05385

在其他工作中,我們引入了半在線計算模型,該模型假定未知的未來場景中包含可預測部分與對抗部分。在經典的組合問題方面,例如二分匹配(ITCS 19)與緩存(SODA 20),我們發現的半在線算法能夠在最佳在線與離線算法之間完成順暢插值。

我們最近在市場算法領域的研究,主要包括對學習與市場間相互作用的最新理解,以及實驗設計層面的多項創新。例如,NeurIPS 19 上發表的口頭論文就展示了戰略型代理在常規重複性雙方博弈中相較於學習型代理的驚人競爭優勢。近期,對於廣告自動化的關注也引起我們對自動競價以及廣告主響應行為分析的濃厚興趣。在 WINE 2019 在兩篇論文中,我們研究了最大限度提升廣告主轉化率的最佳策略,並進一步分析了廣告主對於競價過程中各類變化的響應行為。最後,我們在保留干擾因素的前提下進行了實驗設計研究,發現一組成交可能影響到另一組的結果。在 KDD 19 論文與 NeurIPS 19 論文當中,我們則展示瞭如何定義單位或單位簇,旨在限制干擾並保持實驗能力。

相關鏈接: http://papers.nips.cc/paper/8436-strategizing-against-no-regret-learners

KDD 19 論文《通過地理聚類進行隨機化實驗設計》中提出的聚類算法,適用於對美國本土進行用戶調查。該算法能夠自動識別各大城市群,包括正確預測出灣區所涵蓋的舊金山、伯克利以及帕洛阿爾託,且不包括薩克拉門託。

Jeff Dean 再執筆:一文看盡 2019 谷歌 AI 重大突破

機器學習算法

2019 年,我們在機器學習算法與方法中的多個不同領域進行了研究。其中的一大重點,在於瞭解神經網絡中的訓練動態性質。在博文《測量神經網絡的數據並行訓練極限》當中,谷歌研究人員提供了一組嚴謹的實驗結果,表明對數據並行水平的縮放(增加批量規模)能夠提高模型的收斂效率(利用數據並行方法)。

相關鏈接:
https://ai.googleblog.com/2019/03/measuring-limits-of-data-parallel.html

在測試的所有工作負載當中,我們觀察到批量大小與訓練速度之間存在三大通行關係:小批量對應完美伸縮(沿虛線),批量增加最終導致收益遞減(非虛線),最大批量時數據並行度最高(趨勢平穩)。在不同工作負載之間,過渡點往往具有很大的差異。

Jeff Dean 再執筆:一文看盡 2019 谷歌 AI 重大突破

與將數據分佈在多臺計算設備中的數據並行方法相比,模型並行的擴展效果更好。GPipe 是一套採用類似於流水線式 CPU 處理器方法的庫,能夠顯著提高模型並行化效率:當整個模型中只有一部分在處理某些數據時,則其他部分可著手處理其他數據。這種流水線方法得出的結果能夠再次組合,從而模擬出規模更大的批量任務。

事實證明,機器學習模型能夠獲取原始輸入數據並學習其對應的高級表示形式,這些表示形式最終可用於區分某些重要屬性以及類別(例如貓、卡車、牛、癌症組織與正常組織等)。目前,提升機器學習算法的重點就在於鼓勵其發掘這些高級表示形式,從而將學習到的能力推廣到更多新的示例、問題或者領域當中。2019 年,我們結合以下幾個背景對此展開研究:

  • 在《評估無糾纏表示形式的無監督學習》論文中,我們探討了哪些屬性會影響到無監督學習中的表示形式,希望藉此理解哪些因素能夠成就更好的表示與學習效果。
  • 在《預測深度神經網絡中的泛化差距》論文中,我們發現可以使用邊際分佈的統計量來預測泛化差距(即模型利用訓練分佈數據得出的性能,與利用具有不同分佈的實際數據得出的性能之間,存在的具體差距),幫助我們更好地瞭解哪些模型具有更好的泛化效果。我們還進行了一系列關於在機器學習模型中改善分佈失調檢測能力的研究,希望更好地瞭解模型從何時開始接納從未見過的各種數據。我們還在強化學習背景之下研究了非策略分類,希望進一步瞭解哪些模型可被用於概括出最佳模型。
Jeff Dean 再執筆:一文看盡 2019 谷歌 AI 重大突破

  • 在《從稀疏與未指定獎勵中學習歸納》論文中,我們研究了指定獎勵函數以實現強化學習的方法,旨在使學習系統能夠更直接地從真實目標中學習,且不會因時間週期過長、動作序列不當等因素造成與預期不符的結果。
Jeff Dean 再執筆:一文看盡 2019 谷歌 AI 重大突破

在這項指令跟隨任務中,動作軌跡 a1、a2 與 a3 達成了目標,但序列 a2 與 a3 並沒有正確跟隨指令。這說明其中存在獎勵不足問題。

AutoML

這一年中,我們繼續推進 AutoML 方面的工作,旨在探索如何利用學習算法提升機器學習的整體自動化程度,同時確保某些類型的機器學習元決策能夠帶來比頂尖人類機器學習專家更出色的實際結果。具體包括:

  • 在《EfficientNet:通過 AutoML 與模型綻放提高準確率與效率》論文中,我們展示瞭如何利用神經架構搜索技術在計算機視覺問題中獲得質量顯著提升的結果,即在 ImageNet 上的成績相當於最高準確率的 84.4%,且使用參數只相當於原有最佳模型的八分之一。
Jeff Dean 再執筆:一文看盡 2019 谷歌 AI 重大突破

  • 模型大小與準確率比較。EfficientNet-B0 是由 AutoML MNAS 開發出的基準網絡,而 Efficient-B1 到 B7 則是由該基準網絡擴展而來。具體來看,EfficientNet-B7 在 ImageNet 上的成績相當於最高準確率的 84.4%,第五高準確率的 97.1%,但參數僅相當於現有最佳 CNN 的 1/8.4。
  • 在《EfficientNet-EdgeTPU:利用 AutoML 創建加速器優化型神經網絡》論文中,我們展示了神經架構搜索方法如何找到最適合特定硬件加速器的高效模型,從而生成可在移動設備上運行的高精度、低計算量模型。
  • 在《視頻架構搜索》論文中,我們闡述瞭如何將 AutoML 工作擴展到視頻模型領域,如何找到可實現最佳結果的架構,以及如何在使用 50 倍分辨率的情況下達成與手調模型性能相近但計算量更低的架構。
Jeff Dean 再執筆:一文看盡 2019 谷歌 AI 重大突破

TinvVideoNet(TVN)架構一直在不斷演變,希望在最大限度提高識別性能的同時,將計算時間保持在必要限制之內。例如,TVN-1(上方)在 CPU 上需要運行 37 毫秒,在 GPU 上運行 10 毫秒。而 TVN-2(下方)在 CPU 上運行 65 毫秒,在 GPU 上運行 13 毫秒。

  • 我們還開發出可用於處理表格數據的 AutoML 技術,幫助眾多企業與組織在關係數據庫內發掘出新的重要數據價值,並希望基於此類數據開發新的機器學習模型。我們將這項合作開發技術以 Google Cloud AutoML Tables 的名稱發佈,同時討論了該系統在 KaggleDays 表格數據端到端 AutoML 解決方案競賽中的表現。(劇透:在與 74 支由專家組成的數據科學團隊進行一番比較之後,AutoML Tables 排名第二。)
  • 在《神經網絡的中立權重探索》論文中,我們展示瞭如何在無需訓練步驟的前提下,更新神經網絡架構以調整評估模型中的權重。通過這種方式,架構搜索的計算效率得到了顯著提升。
  • 《將 AutoML 應用於 Transformer 架構》論文探索瞭如何為自然語言處理任務尋找最佳架構,目標是在顯著提高原始 Transformer 模型性能的同時,大大降低計算成本。
Jeff Dean 再執筆:一文看盡 2019 谷歌 AI 重大突破

  • 在《SpecAugment:一種用於自動語音識別的新型數據增強方法》論文中,我們證明自動學習數據增強方法完全可以擴展至語音識別模型當中。與依賴於人類機器學習專家的現有數據增強方案相比,這種學習增強方案能夠顯著提升準確率水平。
  • 我們還啟動了第一款利用 AutoML 實現關鍵字識別與口語識別的語音應用。在實驗當中,我們發現這類模型在經過一段時間的運行之後,在效率與性能方面都優於人工設計的模型。

自然語言理解

過去幾年,自然語言理解、翻譯、自然對話、語音識別和相關任務的模型取得了顯著進展。今年,我們工作的一個主題是通過結合模式或任務來提高自然語言理解技術水平,來培訓更強大和性能更優的模型。舉幾個例子:

  • 在探索大規模多語言、大規模神經機器翻譯的過程中,我們通過訓練一個模型在 100 種語言之間進行翻譯,而不是使用 100 個單獨的模型來進行訓練,因此翻譯質量得到了顯著提高。
Jeff Dean 再執筆:一文看盡 2019 谷歌 AI 重大突破

  • 在具有流端到端模型的大規模多語言語音識別中,我們展示瞭如何將語音識別和語言模型結合起來,在多種語言上訓練系統,可以顯著提高語音識別的準確性。
Jeff Dean 再執筆:一文看盡 2019 谷歌 AI 重大突破

  • 在《翻譯:端到端的“從語音到語音”的翻譯模型》一文中,我們展示了可以訓練聯合模型來實現語音識別任務(通常是單獨的任務),翻譯效果和語音生成效果都表現良好,就像在生成的翻譯音頻中保留了說話者的聲音一樣,還可以訓練一個簡單的整體學習系統。
  • 在《用於語義檢索的多語言通用句子編碼器》中,我們展示瞭如何結合許多不同的目標來產生在語義檢索方面表現更好的模型(相對於簡單的單詞匹配技術)。例如,在 Google Talk to Books 中,“什麼味道能喚起回憶?”最終得到的結果,“對我來說,茉莉花的香味和烤盤的香味,讓我想起了無憂無慮的童年。”
  • 在《穩健神經機器翻譯》中,我們展示瞭如何使用對抗性訓練程序來顯著提高語言翻譯的質量和穩健性。
Jeff Dean 再執筆:一文看盡 2019 谷歌 AI 重大突破

機器感知

過去十年,用於更好地理解靜止圖像的機器感知模型取得了顯著進步。這些模型和方法的下一步任務就是要更好地詳細瞭解動態世界。這包括對圖像和視頻更深入,更細緻地解讀,以及對生活和環境的感知:以交互的速率以及與用戶共享的空間基礎來理解視聽世界。今年,我們在該領域的許多方面取得了進展,包括:

  • Lens 中更精細的視覺理解,可實現更強大的 視覺搜索。
  • Nest Hub Max 上有用的智能相機功能,例如快速手勢,面部匹配和智能視頻通話取景。
  • 實時和空間感知感知技術,通過使用 Lens 能幫助我們開拓周圍的世界。
  • 更好的視頻深度預測模型。
  • 使用時間週期一致性學習對視頻進行細緻地理解的更好的表現形式。
Jeff Dean 再執筆:一文看盡 2019 谷歌 AI 重大突破

  • 學習文本、語音和與未標記視頻在時間上一致的視頻的表示形式。
Jeff Dean 再執筆:一文看盡 2019 谷歌 AI 重大突破

  • 能夠通過對過去的觀察來預測未來的視覺輸入。
  • 模型可以更好地理解視頻中的動作序列,使用戶能夠更好地回憶特殊的視頻時刻,如谷歌照片中的“吹蠟燭”或“滑下滑梯”。我們能不斷改善對周圍感官世界的認知,這樣我們感到興奮。
Jeff Dean 再執筆:一文看盡 2019 谷歌 AI 重大突破

機器人

機器學習在機器人控制中的應用是一個重要的研究領域。我們相信,這是一個使機器人能夠有效地在複雜的、現實世界的環境中(例如家中或辦公場所中)運行的至關重要的工具。我們今年的工作包括:

  • 在《自動強化學習遠程機器人導航》中,我們展示瞭如何將強化學習與遠程規劃相結合,使機器人能夠更有效地在複雜環境中導航(比如谷歌辦公大樓)。
Jeff Dean 再執筆:一文看盡 2019 谷歌 AI 重大突破

  • 在《PlaNet:一個用於強化學習的深度規劃網絡》中,我們展示瞭如何從圖像的像素中有效地學習一個世界模型,以及如何利用這個世界模型來完成更少學習片段的任務。
  • 在《將物理學和深度學習與 TossingBot 相結合》中,我們展示了機器人如何通過在環境中進行實驗來學習“直覺”物理學,而不是通過預先編程的物理模型來了解它們所處的環境。
Jeff Dean 再執筆:一文看盡 2019 谷歌 AI 重大突破

  • 在《Soft Actor-Critic:深強化學習機器人》中,我們展示了將強化深度學習算法訓練到最佳期望獎勵(標準 RL 目標)以及最大化 Policy 信息熵(這樣學習支持 Policy 時更隨機),可以幫助機器人更快地學習並在環境的變化中變得更穩健。
Jeff Dean 再執筆:一文看盡 2019 谷歌 AI 重大突破

  • 在《學習自我監督反彙編中進行組裝和泛化》中,我們展示了機器人如何通過學習以自我監督的方式對事物進行分解然後學會組裝。孩子們可以從拆分過程中學到知識,機器人似乎也可以。
Jeff Dean 再執筆:一文看盡 2019 谷歌 AI 重大突破

  • 我們引入了 ROBEL(低成本機器人學習 Benchmark),這是一個成本效益機器人開源平臺,提供精準 Benchmark,旨在促進現實中物理機器人硬件的研究和開發。

推進更廣泛的開發者和研究者社區開源

不僅僅與代碼相關,也與貢獻者社區相關。今年是開源社區激動人心的一年,我們發佈了 TensorFlow 2.0,迄今為止最大的 TensorFlow 版本,這使得構建 ML 系統和應用程序比以往任何時候都要容易。我們在 TensorFlow Lite 中增加了對快速移動 GPU 推理的支持。我們還推出了 Teachable Machine 2.0,這是一個快速、簡單的基於網絡的工具,只需點擊一個按鈕就可以訓練一個機器學習模型,不需要編碼。我們發佈了 MLIR,這是一種開源的機器學習編譯器基礎結構,可解決不斷增長的軟件和硬件碎片的複雜性,並使構建 AI 應用程序更加容易。

  • 我們見證了 JAX 的第一年,這是一個用於高性能機器學習研究的新系統。在 NeurIPS 2019 上,谷歌和更多開源社區展示了 JAX 涉及了哪些工作,從神經切線內核到貝葉斯推理到分子動力學都有 JAX 的參與,我們在雲 TPUs 上發佈了 JAX 的預覽。
  • 我們開源了 MediaPipe 和 XNNPACK,MediaPipe 是用於構建感知和多模式應用 ML 管道的框架,一個有效的浮點神經網絡推理運算符庫。截至 2019 年底,我們已使全球 1500 多名研究人員能夠通過 TensorFlow Research Cloud 免費訪問 Cloud TPU。我們在 Coursera 的 TensorFlow 簡介吸引了 10 萬名學生。我們與成千上萬的用戶互動,同時將 TensorFlow 帶到 11 個不同的國家和地區,並舉辦了我們的第一個 TensorFlow World 等。
  • 在 TensorFlow 的幫助下,一名大學生髮現了兩個新行星,並建立了一種幫助其他人發現更多行星的方法。最初來自尼日利亞的一位數據科學家訓練了 GAN 來生成讓人聯想起非洲面具的圖像。烏干達的一位開發者利用 TensorFlow 開發了一款名為“農民夥伴”的應用程序,當地農民可以用它來對付破壞農作物的毛蟲。在多雪的愛荷華州,研究人員和州政府官員使用 TensorFlow 根據交通行為、圖像和其他數據來確定安全的道路狀況。在陽光明媚的加利福尼亞,大學生們用 TensorFlow 軟件來識別洛杉磯的坑坑窪窪和危險的道路裂縫。在法國,一位程序員使用 TensorFlow 建立了一個簡單的算法,學習如何為黑白照片添加顏色。

開放數據集帶著明確、可評估目標去開放數據集可有效地推進機器學習的發展。為了幫助研究社區發現有趣的數據集,我們繼續使用 Google 數據集搜索來索引來自不同組織的各種開放數據集。我們認為創建新的數據集對社區探索和開發新技術十分重要,我們也有責任共享開放數據集。今年,我們還發布了多個不同領域的開放數據集:

  • Open Images V5:它是 Open Images 數據集的更新,其中包括 350 個分類中的 280 萬個目標的分割蒙版(因此,它現在具有約 900 萬個帶有圖像級標籤,目標邊界框,目標分割蒙版和視覺關係的圖像 )。
  • 自然問題:第一個使用自然查詢並通過閱讀整頁信息而不是從段落中提取答案來回答問題的數據集。
  • Deepfake 檢測數據集:我們為 FaceForensics benchmark(如上所述)貢獻了一個大型的可視化 Deepfake 數據集。
  • Google Research Football:一個新穎的強化學習環境,代理旨在掌握足球這一世界上最受歡迎的運動。對於強化學習代理來說,擁有 GOOOAAALLLSS 很重要。
  • Google-Landmarks-v2:超過 200 萬個不同地標的 500 萬張圖像(是第一版的 2 倍)。
  • YouTube-8M Segments:大規模分類和時間本地化數據集,其中包括經過人工驗證的 YouTube-8M 視頻的 5 秒細分級別的標籤。
  • 原子視覺動作(AVA)口語活動:一種多模態的視聽視頻數據集,用於感知對話。此外,AVA 動作識別和 AVA:口語活動也 面臨學術挑戰。
  • PAWS 和 PAWS-X:為幫助解釋短語,兩個數據集都包含格式良好的句子對,這些句子對具有較高的詞法重疊,其中約有一半句子對有釋義,一半沒有。
  • 自然語言對話數據集:CCPE 和 Taskmaster-1 都使用 Oz 嚮導平臺,該平臺將兩個參與口語對話的人配對,以模擬與數字助理的人際對話。
  • 可視任務適應性基準測試:VTAB 遵循與 ImageNet 和 GLUE 相似的指導原則,但基於一個原則——一種更好的表示形式是,在域內數據有限的情況下,對不可見的任務上產生更好的性能。
  • 模式指導的對話數據集:它是針對對話的最大的公開可用語料庫,涵蓋 17 個領域的 18000 多個對話。

研究社區互動

總而言之,我們一直深耕於更廣範圍的學術和研究社區。2019 年,谷歌研究人員發表了數百篇論文,參加了許多會議並獲得了諸多獎項和榮譽。我們在以下方面取得了喜人的成就:

  • CVPR:約 250 名谷歌員工貢獻了 40+ 論文、演講、海報、研討會等。
  • ICML:約 200 名谷歌員工貢獻了 100+ 論文、演講、海報、研討會等。
  • ICLR:約 200 名谷歌員工貢獻了 60+ 論文、演講、海報、研討會等。
  • ACL:約 100 位谷歌員工貢獻了 40+ 論文、研討會和教程。
  • INTERSPEECH:100 多名員工貢獻了 30+ 論文。
  • ICCV:大約 200 位谷歌員工貢獻了 40+ 論文,還有幾位谷歌員工還獲得了三個業內頗具聲望的 ICCV 獎項。
  • NeurIPS:約 500 名谷歌員工共同撰寫了 120 多篇被廣泛認可的論文,並參加了各種研討會等等。

我們還會將來自全球各地的數百名谷歌研究人員和教職人員召集到在谷歌總部舉辦的 15 個獨立研討會上。這些研討會的主題包括:改善全球洪災預報、如何使用機器學習來構建可以更好地為殘疾人服務的系統,以及加速用於噪聲中級規模量子(NISQ)處理器的算法、應用程序和工具的開發。

為了支持除谷歌之外的其他學術界和研究社區,我們通過年度博士獎學金計劃為全球 50 餘名博士研究生提供了支持。在 2018 年穀歌院系研究獎中,我們資助了 158 個項目,並且舉辦了“谷歌人工智能駐留項目”第三屆會議。我們也那些以致力於發展人工智能的初創企業提供支持。

新環境、新徵程

2019 年我們取得了長足的進步,但我們在很多方面能做得更好。為了繼續擴大我們在世界的影響力,我們 在班加羅爾 開設了一個 研究辦公室,並且我們正在擴展其他辦公室。

展望 2020 · 走向更遠的未來

過去的十年,機器學習和計算機科學得到了突飛猛進的發展,現在我們已經能讓計算機來更好地看見、聽見並理解人類語言。現在,我們有了可以使用從事複雜計算的設備,這些技術和設備可以更好地幫助我們完成日常生活中的許多任務。通過開發專用硬件,我們已經圍繞這些機器學習方法重新設計了計算平臺,從而能幫助我們解決更多更大的難題。這改變了我們對數據中心(例如,以推理為中心的 TPUv1 和以訓練和推理為中心的 TPUv2 和 TPUv3)以及低功耗移動環境(例如 Edge TPU)中的計算設備的認知。深度學習革命將重塑我們對計算和計算機的認知。

欣喜之餘,我們也意識到在過去一年仍然存在大量未解決的問題。下列這些問題我們需要在 2020 年和以後更好地去解決:

  • 我們如何構建可以處理數百萬個任務並能成功自動學習新任務的機器學習系統?目前,我們主要是針對每項新任務從零開始來訓練單獨的機器模型,哪怕最好的也不過是從一項或多項高度相關的任務開始訓練模型。因此,我們訓練的模型能夠擅長做一件事或幾件事,但不擅長做訓練之外的其他任何事情。但是,我們真正想要的是一種善於利用其專業知識來完成很多任務的模型,這樣這些模型就能夠以相對較少的訓練數據和計算來學習做新任務。現階段來說這是個非常大的挑戰,因為它需要聯動多個專業領域,包括固態電路設計、計算機體系結構、以 ML 為重點的編譯器、分佈式系統、機器學習算法等。還需要與多個領域的專家交互來構建泛化地、能夠在整個應用領域獨立解決新任務的系統。
  • 我們如何在人工智能的重要領域推進最新技術,例如避免偏見,增加可解釋性和可理解性,改善隱私和確保安全?隨著我們在社會上越來越多地使用機器學習,這些領域的進步將變得至關重要。
  • 我們如何應用計算和機器學習在重要的新科學領域取得進步?通過與氣候科學、醫療保健、生物信息學和許多其他領域的其他領域的專家合作,可以取得重要的進步。
  • 我們如何確保機器學習和計算機科學研究領域所追求的思想和方向具有多樣性? 計算機科學和機器學習研究社區所做的工作對數十億人意義重大,我們希望從事這一工作的研究者能夠表達出世界上所有人們觀點、關注、創造和熱情,也就是說從業者要具有多樣性。我們如何以最佳方式去支持來自不同背景的新研究人員進入該領域?

總體而言,對於谷歌和更多研究社區來說,2019 年是令人振奮的一年。我們已經做好充足準備來迎接 2020 年及未來的挑戰,我們也期待與公眾分享我們的進步!


分享到:


相關文章: