無人駕駛 大數據VS算法哪個更重要?

無人駕駛汽車上主要的傳感器:激光雷達、攝像、毫米波雷達、GPS、超聲波雷達和車輪轉角傳感器等。ElonMusk曾經在公開場合多次說過,不用激光雷達只用攝像頭,也能實現Level4以上的無人駕駛。這麼說其實是有商業化方面的考慮。

特斯拉的汽車已經在售,賣出去的車只能更新軟件,肯定不能換硬件,比如全部重新裝上激光09 雷達(不然特斯拉也不會說在產的特斯拉汽車會換上新的硬件系統了)。

況且,Google無人車用的64線Velodyne激光雷達本身的價格高達75000美元,這幾乎和低配版特斯拉在美售價差不多了。

特斯拉的車要賣得好必須控制成本,Google的無人車目前還只是處於測試階段,幾百輛的規模當然可以什麼好用用什麼,相比於特斯拉幾萬的產銷量,花不了多少錢。

去年5月7日,美國佛羅里達州的一位特斯拉車主在使用Autopilot時發生車禍,最終不幸生亡。由此還導致給特斯拉提供計算機視覺技術的Mobileye創始人Amnon Shashua與ElonMusk之間的口水戰,雙方最終不幸鬧掰——Mobileye宣佈:與特斯拉合同結束後不再繼續合作。

在9月11日發佈的Autopilot8.0版本中,特斯拉把毫米波雷達採集到的數據作為了控制系統判斷的主要依據,而不是之前Mobileye的攝像頭。

說起5月份的車禍,其實在車禍發生前,特斯拉的毫米波雷達已經感知到有障礙物,但是攝像頭因光線的問題,沒有準確識別藍天白雲背景下的大貨車,最後導致車禍發生。Musk肯定也知道了攝像頭並不靠譜,所以才在Autopilot的新版本中把毫米波雷達的數據作為主要參考依據。

由此可見,Musk說“不用激光雷達只用攝像頭,也能實現Level4以上的無人駕駛”更多是出於商業化方面的考慮。

此舉意在一邊用現有的傳感器收集數據,一邊等激光雷達價格降下來。如果固態激光雷達的價格真能如宣傳中所說下降到100美元到200美元,為了保證汽車行駛的安全性,Musk肯定是會用的。

一方認為:數據為王,再牛的智能算法也拼不過海量的數據。而另一方則認為:數據只是建材,強大的分析能力才能讓它變成摩天大樓,對效率的追求導致了算法,大數據取代不了算法。

日前,Google和特斯拉都公佈了各自的測試里程數。據外媒報道,Google宣佈自己的無人駕駛汽車剛剛完成200萬英里道路行駛里程。而特斯拉創始人ElonMusk也於幾天後在個人Twitter上宣佈:特斯拉Autopilot發佈後的1年中累計行駛里程已達到2.22億英里。

Google和特斯拉兩方的表態表面上似乎也印證了雙方的觀點:數據為王VS算法為王。那實際情況究竟如何?

我們不妨考慮另一個類似的現象:大多數人認為Google的搜索比微軟的Bing搜索在質量上做得略好一點的原因是Google的算法好。

但在前Google工程師吳軍博士看來,這種看法在2010年之前是對的,因為那時Bing在技術和工程方面明顯落後於Google。但今天這兩家公司在技術上已經相差無幾了,Google還能稍稍佔優,很大程度上靠的是數據的力量。

Google憑藉PageRank算法給搜索結果帶來了質的變化,而好的搜索結果能吸引更多的用戶使用Google的搜索引擎,這不知不覺間給Google提供了大量的點擊數據。

有了這些數據之後,Google可以訓練出更精確的“點擊模型”,而點擊模型貢獻了今天搜索排序至少60%到80%的權重,這將吸引更多的用戶,整個過程是一個典型的不斷自我強化的正反饋過程。

在Google內部,產品經理們都遵循這樣一個規則:在沒有數據之前,不要給出任何結論。由此可見,Google的企業使命已經融入了員工的日常工作中。Google正是充分利用了大數據的力量,順利成為了對整張互聯網舉足輕重的樞紐節點,非常自然地實現了對互聯網的壟斷。

再舉一個例子,9月27日Google發佈了新版本的神經機器翻譯系統(GoogleNeuralMachineTranslation,GNMT),宣稱該系統的翻譯質量接近人工筆譯

大多數網友在實際測試過後,表示眼前一亮。與此同時,這也引起了某些翻譯工作者的恐慌:”作為翻譯看到這個新聞的時候,我理解了18世紀紡織工人看到蒸汽機時的憂慮與恐懼。”而這其實也是充分利用大數據的結果。

其實早在2005年,Google的機器翻譯質量就讓全世界從事自然語言處理的人震驚不已了:從來沒有從事過機器翻譯的Google,在美國國家標準技術研究所(NationalInstituteofStandardsandTechnology,NIST)的年度測評中遙遙領先。

在阿拉伯語到英語翻譯的封閉測試集中,Google系統的BLUE評分為51.31%,領先第二名將近5%,而提高這5個百分點在過去需要研究5到10年。

Google究竟是做到的呢?除了Google一貫的行事風格——把該領域全世界最好的專家、南加州大學ISI實驗室的弗朗茲-奧科(FranzOch)博士挖過來之外,最關鍵的還是Google手裡握有改進機器翻譯系統所需要的大數據。

從奧科2004年加入Google到2005年參加NIST測試,期間只有一年時間,如此短的時間只夠他將在南加大的系統用Google的程序風格重新實現一遍,完全沒有額外的時間做新的研究。而從上圖中我們可以看到,Google和南加大系統的水平差了5到10年。

其中的秘密就在於:奧科在Google還是用的在南加大使用過的方法,但充分利用了Google在數據收集和處理方面的優勢,使用了比其他研究機構多上萬倍的數據,訓練出一個機器翻譯的六元模型(一般來講N元模型的N值不超過3)。當奧科使用的數據是其他人的上萬倍時,量變的積累導致了質變的發生,而這就是當今人工智能領域最權威的幾位專家之一傑弗裡-辛頓(GeoffreyHinton)教授所堅持的“多則不同”吧。

值得一提的是,SYSTRAN公司是一家使用語法規則進行翻譯的企業,在科學家們還沒有想到或者有條件利用統計的方法進行機器翻譯之前,該企業在機器翻譯領域是最領先的。但現在與那些採用了數據驅動的統計模型的翻譯系統相比,它的翻譯系統就顯得非常落後了。

經過上述分析:在當下的企業競爭中,相比於算法或數學模型,數據的重要性的確要大得多,即數據為王。因為前者往往由學術界在幾十年前就已經發現了,所有企業都可以加以利用,但是多維度的完備數據並不是每一個企業都擁有的。

今天很多企業在產品和服務的競爭,某種程度上已經是數據的競爭了,可以說沒有數據就沒有智能。因為從理論上講,只要能夠找到足夠多的具有代表性的數據,就可以利用概率統計結果找到一個數學模型,使得它和真實情況非常接近,從而節省了大量人力成本或給予了用戶更愉悅的體驗。

數據堂無人駕駛數據產品

無人駕駛汽車是通過車載傳感系統感知道路環境,並根據感知所獲得的道路、車輛位置和障礙物信息,控制車輛的轉向和速度,從而使車輛能夠安全、可靠地在道路上行駛,而提供道路物體識別、路標識別、道路物體精準分割、3D圖像標註、多鏡頭街景圖像標註、軌跡追蹤、視覺追蹤等數據服務,可以完美幫助車輛實現自動規劃行車路線,並控制車輛到達預定目標。

道路物體識別圖像數據


無人駕駛 大數據VS算法哪個更重要?


本數據包括200萬張街景數據,街景包括十字路口、高架橋、隧道、城市道路等。同時標註了行人、車輛、紅綠燈、指示標誌、禁止標誌。其中行人和車輛的標註方法與KITTI數據集相同,並作了適當調整。

道路路標識別圖像數據


無人駕駛 大數據VS算法哪個更重要?


對道路中直行、向左轉彎、向右轉彎、禁止通行、禁止駛車等30類指示標誌及禁止標誌進行標註,其中需要標註的目標物體是邊框高度大於20像素且遮擋小於10%,限速標誌,即標註出真實數值。

道路物體精準分割數據


無人駕駛 大數據VS算法哪個更重要?

共對32種類別(classfy)進行了標註,標註圖片一共使用了4種不同的形狀(shape),分別為:矩形(rectangle)、圓(circle)、橢圓(ellipse)、多邊形(polygon_a,由直線或貝塞爾曲線生成)。

多鏡頭街景圖像標註數據


無人駕駛 大數據VS算法哪個更重要?

多鏡頭同時採集完成的視頻數據,用矩形框標註出左中右鏡頭多個視頻中出現的行人、坐著的人、汽車、廂型車子、騎腳踏車的人、騎摩托車的人,並選擇類別和屬性。

軌跡追蹤

無人駕駛 大數據VS算法哪個更重要?


可以對車輛或行人進行軌跡跟蹤標註,對不同目標從0到無限進行數字命名、不重複,連續幀中出現的同一目標標註相同的id。

視覺追蹤

無人駕駛 大數據VS算法哪個更重要?


通過仔細看司機的眼睛運動,預估出司機觀察的目標,並用矩形框標註出觀察目標/對象,對於駕駛任務有用的任何對象均可以被註釋(例如,汽車,行人,標誌,交通燈等)。


分享到:


相關文章: