ImageNet最後的冠軍顏水成:競賽就是比武場

【導讀】2017年,ImageNet ILSVRC正式宣告終結。在計算機視覺領域深耕16年的“老兵”顏水成與團隊拿下最後冠軍,巧合的是,5年前的PASCAL VOC收官之戰,冠軍也是他。有“水哥”之稱的顏水成可謂計算機視覺競賽領域名副其實的常勝將軍。在接受新智元的專訪中,他分享了自己多年來的戰鬥經歷和實戰經歷。現在已擔任副教授的他,對學生也有許多寄語。顏水成認為,計算機視覺的未來屬於多標籤、像素級、語義級分析。


顏水成,360副總裁、人工智能研究院院長,新加坡國立大學終身教職,作為計算機視覺界的老將,今年他和他的前學生Feng Jiashi助理教授一起帶領團隊摘得了ImageNet Challenge收官之戰的 “皇冠”,同時5年前他同樣帶領團隊摘得了PASCAL VOC收官之戰的“皇冠”。

這次專訪,他將帶著我們看:未來計算機視覺研究還能怎麼玩?

他認為,類似於PASCAL VOC競賽, ImageNet已經完成使命,它的單標籤識別的核心問題已不再代表未來的主要發展方向,確實可以終結了。而計算機視覺的未來屬於多標籤、像素級、語義級分析。

他不認為Web Vision是最終取代ImageNet的數據集,他認為需要一個像素級、多標籤的數據集才可能引領計算機視覺進入下一個時代。如果像素級分類做好了,無論做任何類型圖像理解和語義理解的問題都好辦了。

雖然現在新的數據集有做語義級別分析或者局部關聯分析的,但這些數據庫存在內在的侷限性。 建立一個像素級和多標籤的數據集挑戰非常大,他希望在合適的時間點,由大公司或NPO甚至國家出來做這樣的事情。

對於摘得最後一屆ImageNet皇冠的DPN模型,顏水成和他的學生們還從本質上探討了ResNet、DenseNet和DPN之間關係。他認為雖然ResNet可以解釋成是DenseNet的一個特例,而DPN也是兩者思想的融合,但是由於兩者是錯位對接的,DPN無法再解釋成DenseNet的一種特列,而是一種新的網絡結構。

對於各種圖像競賽,他的觀點是:比賽的名次本身並不重要,重要是“是否給整個society帶來有價值的insight”。“雕蟲小技”很容易被人遺忘,”群毆”式的模型堆砌不會被人敬佩,”暗殺”式的不公佈算法細節的刷榜很難被銘記。比賽給各種算法提供了一個相對公平的“比武場”,這是有助於技術創新的。基礎模型和標準組件是兩種常見的為整個society貢獻Insight的方式。

對於最近火熱的邊緣計算,他認為大家都希望AI最終能落地,2C的量遠大於2B的量,最大的量在手機等終端設備上。所以邊緣計算是人工智能發展需求決定的一個大趨勢。技術上看,目前有三種方式降低邊緣計算量:第一種是內功—就是特別好的網絡結構;第二種是武器—低精度表示的方法;第三種是暗器—巧妙用低功耗的網絡先確定那部分不需要計算的網絡。

三種方法都是為了減少計算量以適應邊緣計算,三種相輔相成。

最後他講述了自己在計算機視覺領域的整整16年,他認為,算法更新了很多代,但是研究的很多問題本身沒變。顏水成師承計算機視覺大師Thomas S. Huang、張宏江、湯曉鷗、李子青等,本在學術界風生水起,卻因為老周對智能硬件的熱情而跨入工業界,經歷了學術界到工業界的巨大變化。他更懂得如何發揮學生各自特長,帶出了很多優秀的學生,誰適合工業界誰又適合學術界,他都加以指引。雖然他是一個很push的老闆,但也被學生親切地稱為“水哥”。

ImageNet最後的冠軍顏水成:競賽就是比武場

ImageNet確實可以終結了,計算機視覺的未來屬於多標籤、像素級、語義級

“圖像的競賽還是像素級別的分類更好。如果像素級分割做好了,無論做任何類型圖像理解或語義理解的問題都好辦了。”

新智元:今年之後ImageNet的ILSVRC挑戰賽“退出江湖”,是不是表明分類檢測任務已經取得相對完善的表現?

顏水成:計算機視覺競賽有很長的歷史,PASCAL VOC進行了八年,ImageNet也是八年。每個比賽都承載了大家對技術發展的期望,同時大家也會逐漸發現這些數據庫的侷限性。

2005-2012年,PASCAL VOC非常火,但是隻有二十類,2010年開始的ImageNet有一千類,於是研究者逐步轉向ImageNet。

ImageNet數據庫現在最大的挑戰是,在分類中每一個圖像中只標註了一個主要的物體,所以ImageNet主要是做單個物體的分類和定位。這不符合現實世界圖像的分佈特點,存在侷限性,這是ImageNet結束比賽的一個重要原因。但是ILSVRC比賽裡面的物體檢測這個任務,本身還沒有終結,後面還會也應該繼續下去。

我們需要像某些多標籤的多媒體數據集那樣的數據集,更符合真實圖像的情況。

新智元:多label的數據集,現在有哪些?

顏水成:比較大的有來自新加坡國立大學的NUS-WIDE。但是label也不多,只有81個。

新智元:ImageNet為什麼是單label?

顏水成:工作量的問題,多label意味著每個圖像對多個label要做校驗。但是單label只需要判斷yes or no。

假如是個一千個label的多標籤數據集,你的校驗就是一千倍,否則依然會存在錯誤。

新智元:未來計算機視覺的競賽還應該往哪方面發展呢?

顏水成:在我個人看來,圖像的競賽還是像素級別的分類更好。如果圖像分割做好了,無論做任何類型圖像理解或語義理解的問題都好辦了。

ImageNet去年有Scene Parsing任務,但遺憾的是今年沒繼續。如果將來把圖像分割作為核心任務,再做任何其它任務就好辦多了。

真正好的分割是全景的分割。所謂全景分割,就是對每一個像素都有一個標註。這樣比ImageNet檢測和分類的任務難很多,標註量也非常大。

希望在合適的時間點有大公司或NPO來做這樣的事情。現在有新的數據集做語義級別分析或者局部關聯分析,但這些數據庫存在內在的侷限性,最終還是要做像素級別。

DPN摘下最後的“皇冠”,本質是ResNet和DenseNet思想的結合

“ResNet可以解釋成是DenseNet的一個特例。但是DPN還暫時無法被解釋成是DenseNet的特例。原因是...”

新智元:本屆比賽中,你所在團隊使用了DPN技術,這種技術除了用於像ImageNet中“圖像識別”、“圖像檢測”和“圖像分割”這三大任務,是否適合用其他任務或者應用上?

顏水成:計算機視覺領域的基礎模型至關重要,如AlexNet, NIN, GoogleNet, VGG, ResNet, 以及這次的DPN。不僅僅限於這三大任務,只要計算機視覺相關的並且用深度學習的都可受益於這些基礎模型。

新智元:論文中說ResNet是DenseNet的一個特例,而DPN結合了兩種模型的思想,DPN是否也是一種DenseNet的特例呢?

顏水成:這個問題非常有意思。ResNet可解釋成是DenseNet的一個特例。但是DPN還暫時無法被解釋成是DenseNet的特例。原因是,把ResNet當成DenseNet特例的時候,兩者是有錯位的。

ResNet的block和DenseNet的block不是對齊的,而是錯位對應的。把ResNet和DenseNet融合在一起的話,它們錯位了。我和CHEN Yunpeng都仔細分析過,無法把新的DPN再解釋成是原來的DenseNet的結構。

其內在的合理性我們用三角形來做個類比,DenseNet可以看成等邊直角三角形,ResNet是其中一個方向的特例。如果合適地拼接,可以組成另一個等邊三角形,但也可能拼接成一個正方形。DPN屬於後者,由於錯位拼接,最後的模型不再是DenseNet。

下一個ImageNet:根本上還是需要有一個像素級標註的數據集

“涉及到語義,ground-truth往往不reliable,很多標註達不成共識,這讓研究的難度增加很多。”

新智元

:ImageNet已經告別,現在湧現了 Visual Genome、Web Vision這樣的結合語義和知識的圖像數據集,您認為是否意味著語義和知識的理解是下一個趨勢?視覺和自然語言處理是否會殊途同歸?

顏水成:首先,涉及到語義的時候,難度比ImageNet的分類任務大很多。現在做語義級別的理解,一種是探索圖像塊之間的語義關聯,還有一種是用一段話來描述圖像。這時候不再是一個個標籤,而是詞的序列組合。這個空間和圖像空間兩者融合在一起,其內在維度就比以前增加了很多。維度的增加,意味著訓練所需要的數據量就更多。

做圖像理解和語義理解的期望是不一樣的。ImageNet分類的問題,是給圖像一個label或者一個框,只要這一千個標籤分類做的還不錯,大家就可以接受。涉及到語義層面,即使像Image Caption 這樣的任務,人們都對你最後說出來這句話有著非常高的期望,人們期望這些話是有價值的,不是枯燥無意義的,例如“一個棵樹旁邊有一朵花”這種話對普通人來說沒有太大價值。

總的來說,當涉及語義理解,問題就會變得更加複雜,需要的數據量也比以前大很多。但是輸出的結果卻往往價值非常有限。

新智元:現在有沒有好一點的方法做像素級標註數據?

顏水成:比較好的方式是有一些數據標註公司和互聯網巨頭甚至國家參與進來。例如專項資金的投入,讓巨頭出數據並做好數據的清洗,而國家出錢讓社會上專門的標註公司一起把這件事情做好。就國家的新一代人工智能發展規劃中提到:把數據作為一種基礎平臺建設。

新智元:技術上有什麼算法可以輔助生成這樣的數據?

顏水成:這是可能的。比如先用已有的數據用生成模型標註數據,然後再用人工微調。這樣可以很好的減少數據標註所用的時間,達到智能標註的效果。

新智元:對於語義相關數據集,標註的難度是什麼?

顏水成:

比方說,用一句話描述圖像,每個人的描述可能有比較大的差別。這樣ground truth就沒有那麼reliable,很多標註達不成共識。這樣帶來的直接問題是算法結果好壞的評估就不再絕對可信了。

新智元:既然都是仁者見仁的,那語義級識別有什麼應用呢?

顏水成:應用太多了。以網絡速度的發展為基礎,以後網絡數據中會有很多實時視頻流。但是人已經無法標註了,產生圖像和視頻的速度太快了。這時候就需要很多計算機視覺的算法,能對圖像/視頻產生有意義的文本描述,人去搜索圖像以及推薦給合適的用戶的時候就有價值了。

新智元:您認為誰能替代ImageNet?

顏水成:很多人的看法可能是Web Vision。我個人的看法是,根本上還是需要有一個像素級標註的數據集,在這個基礎上各種圖像理解和語義理解的問題就好辦了。

競賽就是比武場:如果你能貢獻Insight,為什麼不“刷榜”?

“比賽名次本身不重要,重要的是能否給整個society帶來有價值的insight”

新智元:有人在知乎評論,近幾年的ImageNet獲獎隊伍都是用的深度學習,導致比賽的新意下降,您怎麼看待這一說法?據說您的團隊在五年內曾7次問鼎PASCAL VOC 和ILSVRC的世界冠軍和亞軍獎項。同時有一些媒體提到這類比賽的時候就說大家是刷分,您怎麼看刷分說法?

顏水成:比賽名次本身不重要,重要的是能否給整個society帶來有價值的insight。雕蟲小技”很容易被人遺忘,”群毆”式的模型堆砌不會被人敬佩,”暗殺”式的不公佈算法細節的刷榜很難被銘記。比賽給各種算法提供了一個相對公平的“比武場”,這是有助於技術創新的。我個人覺得至少有兩類成果可以被認為是有Insight的,一類是基礎模型,比如AlexNet, GoogleNet, VGG, ResNet以及今年的DPN, 另一類是深度學習的標準模塊,比如1x1 卷積 和 Batch-normalization。

如果你在刷榜的同時還為society貢獻了你的insight,那麼為什麼不刷?

邊緣計算模型的“內功”、“兵器”和“暗器”

“網絡好...這是硬功夫,是內功;低精度表示...就像武器;巧妙去掉不需要計算的部分網絡:就像暗器。這三種方法是相輔相成的”

新智元:DPN是高性能、低資源的一種模型,是否適用於移動終端?

顏水成:任何一種網絡結構都可以用在移動端,只不過會針對移動端特點對網絡結構進行特殊的設計,例如ResNet,AlexNet、GoogleNet,我們都在移動端用過。

新智元:DPN的計算量降低了很多,是否因為這種網絡拓撲結構更好?本質上,改善性能或者減少資源消耗是否主要在於優化網絡的拓撲結構?

顏水成:在移動端,加速有很多方式,我個人偏向總結成三種:

1. 網絡好:設計一種結構好的網絡,少量參數取得很好的結果,這是硬功夫,是內功;

2. 低精度表示:把數據從32/64位表示降到更少位的表示,就像武器;

3. 巧妙去掉不需要計算的部分網絡:就像暗器。

就像我們的論文《More is Less: A More Complicated Network with Less Inference Complexity》裡面的工作,專門為移動端做的設計。我們把網絡結構變得更復雜,用low cost的網絡去決定哪些位置的卷積不用算,降低了線上推理時候所需要的計算量。

這三種方法是相輔相成的,一種可以幫助另外兩種,大家從不同維度降低計算量。

新智元:最近邊緣計算比較火熱,您怎麼看待AI模型往移動端發展,這是否是一個真實的趨勢?

顏水成:趨勢完全是由人工智能發展的需要決定的。大家都希望最終能落地,一種是2B,一種是2C,2B的量暫時不是特別大。

你想每年的移動終端例如手機的量有多少,要人工智能落地的話,最好在手機上。這樣就要滿足計算資源的限制要求,充分利用硬件計算的特點,為專門的硬件做定製化加速。

計算機視覺的十幾載,研究的問題沒變太多

“新加坡國立大學候任校長陳永財曾問我在工業界怎麼樣,我的回答是:tiring but exciting”

新智元:您是什麼時候開始進入計算機視覺領域?可以談談這些年研究CV,您的最大體會嘛?

顏水成:我做計算機視覺是從2001年開始,十六年整了。我的第一位導師是李子青教授,後來跟張宏江博士做計算機視覺和多媒體,在微軟亞洲研究院待了差不多三年半。

新智元:十六年最大的體會是什麼?

其實計算機視覺研究的問題變化不大,比如人臉分析的所有問題,十六年前都在研究了。但是方法起碼經歷了三代發展:最早是做子空間分析和流行分析,那個時間段出現了很多子空間學習算法,例如很多PCA+LDA的變種。第二代就是由馬毅教授引領的,稀疏和low-rank。最後就是深度學習的出現,把整個領域帶到了另一個新的level。

新智元:您入職奇虎360已經將近兩年了,你對這段經歷有什麼感受?有沒有達到您當初進入產業界的目標或者是否符合您的預期?

顏水成:我當年加入360最吸引我的是智能硬件這一塊,軟硬件結合是計算機視覺的一個大方向。

企業界和學術界的差異很大,我也花了不少時間來適應。新加坡國立大學候任校長陳永財曾問我在工業界怎麼樣,我的回答是:tiring but exciting。過去的這段時間大部分都是九點半之後才回家,一週大多工作六天。

特別前沿的至少半年以後才會考慮落地的研究領域我們會跟學術界合作,通過聯合實驗室做研究。例如跟新加坡國立大學Feng Jiashi教授組立聯合實驗室,在企業研究院的團隊主要關注業務線上具體的需求,用AI給現有業務賦能,同時跟業務部門一起孵化新的AI產品。

新智元:我們瞭解到您有很多優秀的學生,可以介紹一下他們嘛?有哪些您認為特別優秀的?

顏水成:作為教授對招進來的學生都是喜歡的,經過幾年學習之後,每個人都有特別的地方。有些在工業界非常合適,有些則在學術界更合適。我會給他們做明確的指引。如果說誰最優秀的話,分享一個小故事。

我的博士後導師Thomas S. Huang去年八十大壽,很多學生去祝賀,他提前告訴大家,說會在晚宴的時候揭曉誰是他最優秀的學生。非常吊胃口。

最後晚宴上他非常自豪地宣佈,”all my students are my best students”。

我深以為然。我也很幸運自己的學生都非常優秀。我帶了一批學生到工業界,他們都曾在各種視覺競賽中拿到冠軍/最好結果,同時也有不少學生和博士後在美國、新加坡、中國任職(助理/副)教授。從2008開始,前後已有超過100人曾或正在新加坡國立大學的Learning & Vision組學習。

老師和學生的關係是相對簡單的,我在新加坡國立大學的時候,一直強調slogan: Let’s work hard together! 我一直相信,等自己的學生離開研究組時,如果手裡有一份乾貨滿滿的CV, 絕對不會責怪老闆的Push。


分享到:


相關文章: