03.03 特斯拉使用售出車輛實際行駛的數十億英里數據集來訓練神經網絡


特斯拉使用售出車輛實際行駛的數十億英里數據集來訓練神經網絡

訓練數據是決定深層神經網絡性能的基本因素之一。(另外兩個是網絡結構和優化算法)一般來說,訓練數據越多,性能越好。這就是為什麼我相信特斯拉,而不是韋莫,擁有世界上最有前途的自主汽車項目。

特斯拉使用售出車輛實際行駛的數十億英里數據集來訓練神經網絡

可視化特斯拉車輛

由於50萬輛車在路上配備了特斯拉宣稱的全自動駕駛硬件,特斯拉的日行駛里程為1500萬英里,與Waymo的里程相當。以每天1500萬英里計算,它每年可以行駛54億英里,是Waymo預測的200倍。特斯拉的車隊正在以每週5000輛的速度增長。

有三個關鍵領域的數據會產生影響:。

  • 計算機視覺
  • 預測
  • 路徑規劃/駕駛策略。

計算機視覺

一個重要的計算機視覺任務是目標檢測。有些東西,如馬很少出現在路上。每當特斯拉遇到神經網絡認為可能是馬的東西,或者可能只是一個無法識別的障礙物時,攝像機就會拍下一張快照,待停車後通過 WIFI 上傳反饋給 Tesla。特斯拉的車隊每年在地球上各個角落行駛數十億英里,這也意味著特斯拉可以輕而易舉獲得許多稀有物體的例子。隨著時間的推移,特斯拉在識別稀有物體方面的能力將比威莫汽車強,這是有道理的。

對於常見的對象,Waymo和Tesla的瓶頸很可能是花錢讓人們手動標記圖像。很容易捕捉到的圖像比你付錢給別人貼標籤要多。對於稀有物體,Waymo的瓶頸可能是能否收集對應的圖像,而對於特斯拉來說,瓶頸可能是收集到圖片之後,對圖片的標記和開發軟件,以便在正確的時間觸發快照。這是一個更好的位置。

特斯拉的人工智能主管安德烈·卡普西(Andrej Karpathy)在這段視頻中解釋了特斯拉是如何利用圖像來訓練目標檢測的:。

預測。

預測是指提前幾秒預測汽車、行人和騎自行車者的運動和動作的能力。多年來一直是waymo頂級工程師之一的Anthony levandowski最近寫道:“沒有人實現‘完全自主’的原因今天的軟件不足以預測未來。”levandowski聲稱,自主車輛的主要故障類別是對附近車輛和行人行為的預測失誤。

特斯拉的50萬輛車隊是這裡的一大資源。每當特斯拉對汽車和行人做出錯誤預測時,特斯拉可以保存數據的快照,以便日後上傳到特斯拉的訓練集中。特斯拉可能能夠上傳由計算機視覺神經網絡生成的場景的抽象表示(其中對象被可視化為彩色編碼的長方體形狀,像素級信息被丟棄),而不是上傳視頻。這減少了上傳這些數據的帶寬和存儲需求。

然而,用於訓練目標檢測的圖像需要人的標記,而預測神經網絡只能從事件的時間序列中學習過去與未來的相關性。

人類不需要標記這些數據。特斯拉在收集到的許多有用數據上訓練神經網絡。這意味著訓練數據集的大小將與其總里程數相關。至於目標檢測,與waymo相比,它的優勢不僅在於能夠預測更常見的行為,還在於能夠在罕見的情況下收集罕見行為的數據以預測這些行為。

路徑規劃/駕駛政策。

道路規劃和駕駛政策是指車輛採取的行動:限速時保持在車道中心,改變車道,通過慢車,綠燈亮時左轉,在停放的車輛周圍慢跑,為過馬路的人停車等。很難規定一套規則來涵蓋車輛的所有行動在任何情況下都可能需要。解決這一問題的方法之一是讓神經網絡模仿人類的行為。這稱為模仿學習(有時稱為學徒學習,從示範中學習)。

訓練過程類似於神經網絡如何通過繪製過去和未來的相關性來學習預測其他道路使用者的行為。在模擬學習中,神經網絡可以通過繪製駕駛員所看到的(通過計算機視覺神經網絡)與他們所採取的行動之間的相關性來預測駕駛員的行為。

特斯拉使用售出車輛實際行駛的數十億英里數據集來訓練神經網絡

特斯拉自動駕駛演示的靜止畫面

模仿學習最近被認為是迄今為止最大的成功:alphastar。Deepmind使用了數百萬玩星際爭霸遊戲的人的數據庫中的例子來訓練一個神經網絡,使其像人一樣玩。網絡學習博弈狀態與人的博弈行為之間的關係,從而學習預測人在呈現博弈狀態時會做什麼。僅僅通過這次訓練,alphastar已經達到了deepmind估計的能力水平,這使它處於星際爭霸的競爭排名中間。(後來,AlphaStar通過強化學習得到增強,這使得它能夠提升到專業水平的能力。在自動駕駛汽車上,可能可能無法實現類似的增強功能——這是另一個話題。。

特斯拉正在學習模擬駕駛任務,例如如何處理高速公路三葉草陡峭的彎道,或者如何在十字路口左轉。聽起來,特斯拉計劃仿效隨著時間的推移而擴展的學習任務,比如如何和如何在高速公路上變換車道。

與預測一樣,上傳圍繞汽車的場景的抽象表示可能就足夠了,而不是上傳視頻。這將意味著更低的帶寬和存儲需求。

與預測一樣,數據上傳時沒有人為標記。神經網絡預測人類駕駛員在給定世界狀態下的行為。它所需要的只是世界狀況和司機的行為。本質上,模仿學習是預測特斯拉司機的行為,而不是特斯拉看到的其他道路使用者的行為。與alphastar一樣,所有需要的信息都包含在事件回放中。

根據karpathy關於預測切入的評論,當無法正確預測前方車輛是否會切入特斯拉車道時,特斯拉可以觸發汽車來保存回放。類似地,當涉及路徑規劃駕駛策略的神經網絡無法正確預測Tesla駕駛員行為時,Tesla可能會捕獲重放數據。埃隆·馬斯克在過去曾提到過這種能力,但目前還不清楚它是否在特斯拉上運行。

相反,當特斯拉處於自動駕駛或即將到來的城市半自動駕駛模式時,人類司機將接管。這可能是一個豐富的例子來源,其中系統做了一些不正確的事情,然後人類驅動程序立即演示如何正確地做。

捕捉有趣回放的其他方法包括:突然剎車轉彎、自動緊急剎車、碰撞警告和機器學習中的複雜技術,即異常檢測和新穎性檢測。(這些相同的條件也可以用來觸發回放捕捉以進行預測,者觸發攝像機快照以進行目標檢測。)如果特斯拉知道它想要捕捉什麼,例如在交叉路口左轉,當視覺神經網絡看到紅綠燈和左轉信號燈激活,方向盤左轉時,它可以設置一個觸發器來捕捉回放。

結論。

由於特斯拉擁有大約50萬輛的車隊,它在三個關鍵領域比Waymo(和其他競爭對手)具有優勢:。

  • 計算機視覺
  • 預測
  • 路徑規劃/駕駛策略。

關注收集正確的數據、付費給用戶標籤、或者付費購買帶寬和存儲並不能消除這些優勢。這些問題可以通過設計觸發器、使用不需要人工標記的數據以及使用抽象表示(重放)代替原始視頻來解決。

在商業分析師、記者和公眾中,多數人認為,韋莫爾在自動駕駛方面遙遙領先,而特斯拉則不太接近。當你研究神經網絡的第一原理時,這個觀點是沒有意義的。

此外,alphastar是複雜任務大規模模擬學習概念的證明。如果你懷疑特斯拉的方法是正確的,或者路徑規劃/駕駛政策是一個可管理的問題,你必須解釋為什麼模仿學習對星際爭霸有效,而不是對駕駛有效。

我預測韋莫爾將採取激進的行動來增加隊伍的規模。在未來1—3年內,韋莫爾遙遙領先,特斯拉落後的觀點將被廣泛拋棄。人們太關注脫離控制的指標,這些指標沒有告訴我們系統的健壯性、深度限制,以及Google/waymo能夠接觸到頂尖機器學習工程師和研究人員的演示。他們很少關注訓練數據,特別是對於那些沒有足夠的數據來處理機器學習中的稀有對象和行為的waymo來說。

特斯拉使用售出車輛實際行駛的數十億英里數據集來訓練神經網絡

特斯拉的駕駛模擬

模擬並不是waymo的優勢,因為特斯拉(和所有的自主汽車公司一樣)使用模擬。重要的是,仿真不能產生稀有對象和稀有行為,而仿真的創建者無法預測如何精確建模。

純強化學習對alphastar沒有影響,因為星際爭霸的動作空間很大,隨機探索找不到好的策略。深度思維必須以模仿學習為指導。這表明了純模擬經驗(如alphago 0)解決任何問題的假設的弱點。正是在駕駛等問題上,預測人們的行為是一個關鍵組成部分。預測人類行為需要有關真實世界的經驗信息。

自動駕駛領域的觀察人士可能低估了特斯拉吸引頂尖機器學習人才的能力。一項對技術專家的調查顯示,特斯拉是海灣地區第二受歡迎的公司,僅次於谷歌。它發現,特斯拉是全球第四大最受追捧的公司,僅次於谷歌。(Shopify在全球排名第三,SpaceX排名第一)引人注目的是,學術界、openai以及谷歌、Facebook和deepmind的企業實驗室公開分享機器學習的基本進展。特斯拉能做什麼和韋莫爾能做什麼之間的差別可能沒有那麼大。

這兩家公司的最大區別是數據。隨著特斯拉車隊增加到100萬輛,它的月里程將達到約10億英里,比韋莫每月約100萬英里的速度高出1000倍。對於特斯拉來說,1000倍的差異意味著對稀有物體的卓越檢測、對稀有行為的卓越預測以及對稀有情況的卓越路徑規劃/駕駛策略。自駕挑戰更多的是處理0.001%的英里數,其中包含罕見的邊緣情況,而不是99.999%的英里數是不引人注目的。因此,有理由認為,能夠從這0.001%的英里數中收集大量培訓示例的公司將比不能收集的公司做得更好。


分享到:


相關文章: