「依圖科技創始人」AI新時代:因爲看見,所以相信

我是Leo,依圖科技聯合創始人,UCLA統計學博士,從事人工智能研究15年, 曾在深度學習奠基者Yann LeCun教授實驗室擔任研究員,2010年獲得PASCAL圖像目標檢測比賽冠軍,2017年獲得美國國家標準與技術研究院NIST和美國國家情報高級研究計劃局IARPA人臉識別全球冠軍。

「依圖科技創始人」AI新時代:因為看見,所以相信

Leo

最近,大量關於人工智能的研究報告,投資人、創業者、學者熱議AI的趨勢和對社會各行業的影響,不乏對AI技術和產業發展的誤解,很容易有誤導性。宏觀上,議題大體分為三個方面:AI是多大的事?誰是真正的AI player?AI的場景在哪裡?

「依圖科技創始人」AI新時代:因為看見,所以相信

從科學研究者和創業者的雙視角談談我的主要觀點:AI的邊界,只有領軍人物才可能準確把握和拓展;頂尖企業,因為遠見造就勢能;AI的未來,無與倫比,沒有歷史可以借鑑,也沒有權威可以預測。

“S”曲線看AI格局

我對AI發展歷史和預測,用上圖的”S”形曲線建模(Sigmoid函數,恰好也是用來刻畫神經網絡中神經元的activation function)。橫軸表示時間,縱軸表示機器智能水平。曲線上的點表示某個時間點的全球最高智能水平。2013年開始是新AI時代(深度學習),2013年前的機器智能發展水平相較於近5年的發展基本可以忽略不計。紅線代表悲觀派(AI退潮、AI泡沫等),2017年之後很快出現發展停頓;藍線代表樂觀派,2017年之後還有快速發展。值得強調的是,藍紅兩條曲線對AI歷史有相同認識,但市場上很多論調或研究報告看到的是另一條曲線,很大概率調研看到的AI水平離最高水平有很大差距。分析AI格局的不同立場,可以通過解讀S曲線的三個方面:

1、AI過去的發展以及AI未來發展程度和速率的預測

2、AI發展水平和商業場景的關係

3、各個player的所在位置和差距

具體來說,我們先從AI過去5年的發展情況談起,以人臉識別作為例子,把人臉從N個人中找到的概率在95%,縱軸就是可識別的規模(N的大小)。

技術不是趨同,而是會放大差距、解鎖場景

2017年人臉識別最高水平可識別規模在20億人,大概比2016年可識別千萬提高兩百倍,比2015年提高了數萬倍。在2017年全球最權威的人臉識別測試中(NIST),我們比第二名Vocord團隊,在千萬比對測試上領先2%(Vocord在另一測試集比騰訊優圖高10%),這個就是大家常說的技術水平趨同,高一兩個百分點沒有意義(引申出難兌現成競爭價值)。這個誤區需要從兩個方面解讀:

第一方面,算法在億級、十億級比對的領先會快速放大到5%,20%。這是一般的算法性能曲線的規律。除了可識別規模上的重大差異,還體現在難(hard)的數據上的識別率差異。從算法經驗來說,黑人、女性、小孩、大年齡跨度、遮擋等是較難識別的群體和類別。在這些子類上,不同算法之間的性能差異會更大。

超大規模下的評測本身就是一個不簡單的學術命題,還需要大量的數據支撐,真正能觀測到20億數據下性能的人少之又少,例如美國很難建立20億級的測試集。這不是訪談一些人臉識別研究從業者就能獲得,這是誤區的第一個來源。

第二方面,算法提高,擴大可識別規模,就會解鎖更多商業應用場景。百萬、千萬識別規模對應的是身份認證場景,遠程認證、手機解鎖都屬於此類。“技術無差異”的論調在這個場景下倒是可以成立。但安防刑偵破案對億級和十億比對有剛性需求,在這些場景下,不是多識別出幾個罪犯的問題,而是找出來概率差別十倍以上的,幾乎就是行與不行的問題。“非關鍵性應用”的論斷誤導性極強。

在最新的安防案例中,萬路甚至十萬路攝像頭視頻的人臉搜索、歸檔對算法有極高要求,假定每路人流為萬,要在萬路視頻中,搜索性能相當於要求算法百億、千億規模上的可識別率。這比其他場景的性能要求再提高千倍。以不同算法為基礎的產品端體驗差異就被同比例放大。另外,全球人種的識別,是反恐、出入境業務對識別的覆蓋面要求是很很高的。

總結來說,99%識別率的算法和99.99%的算法,區別在於可解鎖的應用場景。這些新的場景解鎖,是最先鋒的算法團隊和垂直領域的開拓者(比如公安系統的創新團隊)共同努力,也不是訪談一般的安防從業者就能感知變革的最前沿,這是誤區的另一個來源。

技術水平的三個層次VIE:Vision(遠見),Insight(洞見),Execution(執行)

技術實力該如何評估比較呢?最常見的是測試比賽的冠軍、實際案例、招投標PK成績、論文等。這些或許能區分是不是前10名的AI團隊,但很難區分最好的團隊。我對技術的三層解構:Vision,遠見,或戰略格局、技術趨勢判斷;Insight,洞見,算法本質和客觀世界分佈規律的理解;Execution,執行,算法實現、數據獲取、工程計算平臺等。具體來說:

最基礎的Execution就是算法做到什麼水平,特別是大體框架已知後,能快速實現,包括基礎算法、場景數據、計算實驗平臺、產品應用等。比如,AlphaGo出來後,多快能復現;語音識別多快能追上全球最好的結果。頂級的Execution,不是開源的算法平臺可以彌補。特定領域的專家能幫助團隊快速提高對應領域Execution的水平。這個層面,中國團隊應該是世界一流的。Google如果是世界第一的話,不論是下棋、人臉識別、語音識別等,中國的水平應該不會比 Facebook、Microsoft、Apple、Amazon等差,甚至某些方面稍強些。大部人比較技術,基本就在這個層次。但更重要的、威力更大的是上面的兩個層次。

再往上一層是Insight,考察對技術的深刻認知。包括算法模型的數學解釋、客觀世界分佈規律的獨到見解。Insight指導如何使用數據、計算力(就是指導如何使用算法甚至創新算法)。這層決定能不能比Google做得更好,或者能保持同一發展節奏。假定擁有深度學習算法框架、海量數據在同樣水平,但是大家對算法性能調教還有巨大差距。以人臉識別為例,我們使用了2億張人臉圖片(幾十億張圖片的子集)訓練,有效模型參數達到10億量級,利用對人臉這個對象的屬性先驗的合理假設,包括光照、年齡、種族、運動模糊、成像解析度等,模型定製、數據如何組合、計算如何加速在性能調優和模型學習效率上(就是上面提到的Execution)都有重大差異。這就是為什麼擁有算法、算力、數據條件的互聯網巨頭也不見得能在單項AI任務上能做到全球前三。

Vision:預測發展趨勢、定義未來方向,想象對生活、生產的影響。這除了需要對技術的深刻理解,還需要對技術的創新能力,以及技術商業價值的想象力、創造力。技術的遠見,回答AI的場景在哪以及多快到來。

強的Execution,Insight肯定不錯,但可能毫無Vision;最強的Vision,Insight肯定一流,但Execution可能很差。VIE都很強的團隊全球極其稀缺。用深度學習領域最強的兩位大師Hinton和LeCun談一下我的感受。在2010年前,學術界不少人已經在談大數據對機器學習的重要性,Hinton團隊2012年在LeCun發明的算法基礎上,用了百萬的訓練數據,在ImageNet上取得世界級的突破性進展;同一時期,LeCun團隊只用了不到十萬的數據。但是在Hinton公佈ImageNet結果的頭兩個月,LeCun團隊沒法重現Hinton用自己算法的實驗結果。在Hinton公佈算法實現和技巧後,LeCun團隊的結果就輕鬆超過了Hinton團隊的水平。

兩位大師都擁有超一流的Vision,在深度學習方向上堅持三十年。但是他們Vision的差別以及以此帶來的信念差別使得Insight的差別(是否追求更深刻見解)在當時可能是巨大的,對深度學習算法發揮的突破條件包括訓練數據規模、模型正則化實現、activation function選取、GPU計算等的理解還有顯著差異。這些在當時,原理還不清楚時,可能完全是憑著Hinton(包括那一期超強的博士生)的直覺。這種Insight的差距,使得LeCun團隊已知所用算法框架和目標性能但未知關鍵實現時,也不能重現結果。但之後,LeCun團隊擁有更好的Execution(大規模系統性調優),能在短時間內算法性能超過。這種最牛高手間信念的微妙差異,到底來源於什麼,值得深思。

為什麼Vision很重要?就像雷達,對別人來說是盲區,Vision讓你看見,看見所以相信,相信所以平靜。不僅以此獲得戰略優勢,還有定力,排除誘惑和干擾。

Vision如何辨別呢?非常難,甚至幾乎不可能,只能由同樣有Vision的人欣賞。就像taste難以打分一樣,只能由同樣有taste的人欣賞。Vision帶你看到的,就是99%的專家同行都看不到、不相信的。所以,偉大往往和誤解相伴。LeCun在深度學習被實際測試數據驗證前,也很難被美國主流學術圈認可,甚至發表頂級會議都不是簡單的事,可如今,幾乎所有的論文都要貼上深度學習的標籤。

但是判斷過濾沒有Vision的團隊,倒是有跡可循。一般來說,無論學術還是創業,偉大的突破,都需要多年前後一致的投入和深耕。隔年換領域或者什麼模式都在做的(垂直、平臺等),歸類為沒有Vision應該沒什麼問題。

有了VIE的拆解,我認為,AI新時代的壁壘只有人,最頂級的人。領軍人物對AI技術和商業邊界的未來分佈判斷無法替代,決定AI發展基本要素(算法、算力、數據和場景)的所需程度和權重。擁有頂級Execution和Insight的團隊,最知道對算法有效的數據在哪、如何標註使用。擁有頂級Insight和Vision的團隊,最早知道技術的突破帶來最具商業價值的場景在哪以及何時到來。

AI未來:沒有歷史可以借鑑,也沒有權威能夠預測

談了AI發展,技術如何解構,談談AI的未來。基於深度學習的AI新時代,大大不同於30年曆史上的AI,這是被各種應用、在實際場景、大規模數據驗證過性能的技術,而不只是理論或概念。儘管過去5年的發展,對得起人們的期待,今天,還有不少人擔心新AI像過去一樣很快會退潮。但我認為,AI新時代只是開始。我從新AI的三個特性簡要闡述:

1、AI是全新的維度。這是最重要的,決定AI到底是多大的事。

AI技術如何創新發展,如何變革商業,沒有歷史可以借鑑,也沒有權威能準確判斷。AI不僅僅是一個技術,AI突破還能突破所有技術包括人機交互、搜索、機器人、芯片計算、醫學、製藥等科學領域的幾乎所有學科。

2、AI的發展速度快、跳躍性強

從S曲線中,可以看到過去5年,AI的發展及其迅猛,單門類(人臉識別)算法有了萬倍的增長。但我對未來更加憧憬,即S曲線中2018年之後的曲線有多陡。AI發展帶來的多維度技術和各場景深度結合、疊加會帶來更有衝擊力的體驗。從多技術維度來說,從視覺,到聽覺、語義理解、運動控制會在之後幾年都會快速突破;和芯片結合,端智能滲透到與用戶的最後30公分的交互體驗,從Internet Of Things向Internet Of Intelligence跨越,讓智能無處不在。

3、AI領先一步,會帶來巨大勢能

在S曲線中,處在不同位置的團隊,優勢不只是橫軸時間的差距,而是技術領先帶來的累積效應(曲線積分)以及更多元(多條AI技術曲線)AI技術的疊加,這使得AI能有跨行業的摧毀性。不僅僅決定某個行業,第一名和第二名的差距或位置關係,還能使得AI領先的行業的領導者撬動AI意識落後的行業。

AI未來,無與倫比;因為看見,所以相信。


分享到:


相關文章: