大會丨CVPR 2018:GAN、自動駕駛等技術和應用正強勢來襲

大会丨CVPR 2018:GAN、自动驾驶等技术和应用正强势来袭

編者按:計算機視覺領域的頂級會議CVPR 2018上個月在美國鹽湖城舉辦。微軟亞洲研究院實習生鮑建敏參與了這次CVPR 2018之旅,為我們帶回了本次大會上新鮮出爐的計算機視覺前沿研究和他的參會成果分享。

2018年6月18日至22日,計算機視覺的頂級會議CVPR 2018在美國的猶他州首府鹽湖城(Salt Lake City)舉辦。

本屆CVPR吸引了來自世界各地的3309篇論文投稿,最終錄用論文979篇,投稿數量和接受數量都創下了歷史新高。本屆大會的論文涉及的內容也非常廣泛,涵蓋三維視覺、機器學習與視覺、物體識別與理解、計算機視覺理論、視頻分析、計算機視覺應用、低中層視覺等等多個熱門計算機視覺領域。除了如火如荼的論文投稿,本屆CVPR的註冊參會人數也達到了破紀錄的6512位,會場坐滿了來自世界各地的學者們。

大会丨CVPR 2018:GAN、自动驾驶等技术和应用正强势来袭

主會場盛況

除了盛況空前的會場,論文海報區也是人山人海,大家都熱情地向參會來賓分享自己的研究成果。

今年,微軟亞洲研究院視覺計算組共有7篇文章發表在CVPR 2018上,分別與風格遷移、圖像/視頻目標檢測、圖像分解、高效CNN架構、GAN等方向相關:

  • · Dongdong Chen; Lu Yuan; Jing Liao; Nenghai Yu; Gang Hua. “Stereoscopic Neural Style Transfer”.

  • · Shuyang Gu; Congliang Chen; Jing Liao; Lu Yuan. “Arbitrary Style Transfer With Deep Feature Reshuffle”.

  • · Han Hu; Jiayuan Gu; Zheng Zhang; Jifeng Dai; Yichen Wei. “Relation Networks for Object Detection”.

  • · Xizhou Zhu; Jifeng Dai; Lu Yuan; Yichen Wei. “Towards High Performance Video Object Detection”.

  • · Qingnan Fan; Jiaolong Yang; Gang Hua; Baoquan Chen; David Wipf. “Revisiting Deep Intrinsic Image Decompositions”.

  • · Guotian Xie; Jingdong Wang; Ting Zhang; Jianhuang Lai; Richang Hong; Guo-Jun Qi. “Interleaved Structured Sparse Convolutional Neural Networks”

  • · Jianmin Bao; Dong Chen; Fang Wen; Houqiang Li; Gang Hua. “Towards Open-Set Identity Preserving Face Synthesis”


大会丨CVPR 2018:GAN、自动驾驶等技术和应用正强势来袭

中科大與微軟亞洲研究院聯合培養博士古紓暘同學在分享論文成果

隨著計算機視覺技術的發展,CVPR在工業界的影響力也是越來越大,今年的大會共吸引了100多家企業贊助與參會。展臺區更是熱鬧非凡,微軟也在會場也設有一個偌大的展臺,展示了CVPR 2018中微軟參與的工作以及它們的技術演示。其中有HoloLens推出的針對研究人員開放的研究模式,及其HoloLens在計算機視覺的研究任務中使用,同時還演示瞭如何高效地設計,開發,維護一個針對計算機視覺問題的系統。

大会丨CVPR 2018:GAN、自动驾驶等技术和应用正强势来袭

科技範十足的微軟展臺

在展臺區展示的眾多技術中,自動駕駛技術無疑是本屆CVPR 2018的新寵兒,許多自動駕駛公司都將自己的汽車開到了會場中。

大会丨CVPR 2018:GAN、自动驾驶等技术和应用正强势来袭

現場展示的自動駕駛汽車

最佳論文

本屆CVPR的最佳論文獎頒給了斯坦福大學(Stanford University)和加州大學伯克利分校(UC Berkeley)的Amir R. Zamir等。他們

提出了一個解決多視覺任務的框架Taskonomy,嘗試使用任務之間的相關性來避免重複學習,從而使得模型可以使用更少的數據來學習相關的任務

大会丨CVPR 2018:GAN、自动驾驶等技术和应用正强势来袭

為了找到最優的學習策略,Taskonomy採用了量化視覺任務相關性的方法。如果兩個視覺任務A和任務B之間具有相關性,那麼在學習過程中,任務A和任務B可以相互幫助對方學到更好的表達。舉個例子,任務A是物體檢測,任務B是物體分割,這兩個典型的視覺任務在Mask-RCNN中被驗證他們可以相互幫助,相互提升對方的準確率。Taskonomy通過遷移學習計算了26個不同視覺任務的相關性,基於這些相關性,我們可以得到對於一組任務的最優學習策略。

論文鏈接:http://taskonomy.stanford.edu/taskonomy_CVPR2018.pdf

今年的最佳學生論文獎(Best Student Paper Award)由來自卡耐基梅隆大學(CMU)的Hanbyul Joo等獲得。該研究提出了一種3D的可變形模型,除了能夠追蹤身體的整體動作,它還能夠追蹤人們臉上的表情、手勢等微小的動作

大会丨CVPR 2018:GAN、自动驾驶等技术和应用正强势来袭

為了實現這樣的運動追蹤,他們提出了Frank模型和Adam模型兩個模型,Frank模型可以將人體各部位的模型進行局部組合,並能通過單個無縫模型完整表達人體部位的動作,包括人臉和手的動作。Adam模型與初始模型具備同樣的基礎層級,但是它可以表現頭髮和衣服的幾何形狀,直接查看衣服和人是否相配。兩個模型結合在一起不僅可用於整體動作追蹤,而且可以同時捕捉一個人的大規模身體動作和細微的面部、手部動作。

論文鏈接:https://arxiv.org/pdf/1801.01615.pdf

大會熱門:生成對抗網絡(GAN)

在本屆CVPR的參會論文中,生成對抗網絡(GAN)是引人關注的一大熱門技術,被應用於圖片合成、風格遷移、小臉檢測、圖片去霧等越來越多的問題中。生成對抗網絡由Ian Good fellow首先提出,在近四年的發展中,GAN在越來越多的領域中發揮著至關重要的作用,越來越多的人認為GAN正在取代深度學習,成為新的關注焦點

GAN由生成網絡G和判別網絡D兩個網絡構成。在訓練過程中,判別網絡D嘗試對生成網絡G生成的圖片和真實圖片進行分類,生成網絡G則儘可能使自己生成的圖片接近真實圖片,使判別網絡D難以辨別生成圖片和真實圖片,這樣就形成了對抗的局面,最後的訓練結果是判別網絡D無法辨別生成網絡G生成的圖片,生成網絡G生成圖片的數據分佈和真實數據的分佈達到一致。GAN網絡原理如下圖所示。

大会丨CVPR 2018:GAN、自动驾驶等技术和应用正强势来袭

由於GAN在深度學習領域的火熱,與GAN相關的論文也是層出不窮。過去三年裡,光是名字中帶有GAN的論文就呈現出指數型增長態勢。

大会丨CVPR 2018:GAN、自动驾驶等技术和应用正强势来袭

(圖片來自:https://github.com/hindupuravinash/the-gan-zoo)

GAN的研究項目如此之多,要歸功於它廣泛的應用場景。

首先,GAN可以用於簡單的基於條件生成圖片,比如由文字描述去生成圖片,比如由一段鳥的描述去生成鳥。如下圖中CVPR 2018論文“AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networks”的結果,AttnGAN在GAN中引入attention的概念,使網絡能夠更加有重點地生成圖片,生成結果將更加清晰、自然。

論文鏈接:https://arxiv.org/pdf/1711.10485.pdf

大会丨CVPR 2018:GAN、自动驾驶等技术和应用正强势来袭

其次,GAN可以用於轉換存在對應關係的圖片。例如將標籤轉換為實景,將灰度圖片轉換為彩色圖片,將航拍地圖轉換為二維地圖等等。

下圖是CVPR 2018論文“High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs”的結果,從街景標籤到街景實景的生成過程使用了由粗粒度到細粒度的思想,先生成低分辨率的圖片,然後再逐步生成高分辨率的圖片。

論文鏈接:https://arxiv.org/abs/1711.11585

大会丨CVPR 2018:GAN、自动驾驶等技术和应用正强势来袭

另外,GAN還可以被用於小臉檢測。對於圖片中我們感興趣的區域,可以利用GAN來進行放大,從而更好地判斷該區域是否存在人臉,提升小人臉檢測的準確率。如下圖中CVPR 2018論文“Finding Tiny Faces in the Wild with Generative Adversarial Network”結果所示。

論文鏈接:http://openaccess.thecvf.com/content_cvpr_2018/CameraReady/0565.pdf

大会丨CVPR 2018:GAN、自动驾驶等技术和应用正强势来袭

保留身份信息的人臉合成技術

在本屆CVPR上,微軟亞洲研究院視覺計算組也利用GAN網絡貢獻了一些有趣的研究。在論文“Towards Open-Set Identity Preserving Face Synthesis”中,我們希望解決開放數據集中人臉生成的問題,合成保留圖中人臉原始特點的圖像。如下圖所示:

大会丨CVPR 2018:GAN、自动驾驶等技术和应用正强势来袭

針對一張輸入的人臉圖片,我們希望從中得到身份和屬性信息。在這個例子中,A(蒙娜麗莎)和B(赫本)為輸入,我們的模型從A和B中分別得到身份信息和屬性信息,然後通過重組,得到一個和原赫本圖片相同屬性的蒙娜麗莎圖片A’,和一個和原蒙娜麗莎圖片相同屬性的赫本圖片B’。

為了實現這種“改頭不換面”的效果,我們提出了一個基於GAN的框架,如下圖所示:

大会丨CVPR 2018:GAN、自动驾驶等技术和应用正强势来袭

其中,I網絡用來提取圖片的身份信息,A網絡用來提取網絡的屬性信息,G通過提取的信息生成一張新的圖片,C網絡用來保證生的圖片和提供身份信息的圖片的身份信息一致,D網絡用來保證生成的圖片是一張真實的圖片。

通過在MS-Celeb-1M上的訓練,我們的模型能夠在開放數據集上生成保持身份信息的圖片。在開放數據集上得到的結果如下圖所示:

大会丨CVPR 2018:GAN、自动驾驶等技术和应用正强势来袭

圖中,(a)是提供身份信息的圖片,(b)是提供屬性信息的圖片,(c)是模型生成的結果,同一行的圖片具有相同的身份信息,同一列的圖片具有相同的屬性信息。從生成圖片中可以看到,我們的模型既保持了與(a)相同的身份信息,又保持了與(b)相同的屬性信息。

論文鏈接:https://arxiv.org/pdf/1803.11182.pdf

CVPR作為計算機視覺的頂級會議,正吸引著越來越多的來自學術界和工業界的關注。會場裡隨處可見的學術大牛,不期而遇的昔日好友,展臺區各家公司的黑科技和領不完的禮物,世界盃期間會場還貼心地同步比賽直播,這樣的CVPR,讓人去了還想去。

大会丨CVPR 2018:GAN、自动驾驶等技术和应用正强势来袭

鮑建敏,2014年本科畢業於中國科學技術大學少年班學院,後進入中科大信息科學學院李厚強教授實驗室攻讀博士,2016年進入微軟亞洲研究院實習,主要的研究方向是人臉識別與合成,生成對抗網絡。

你也許還想看

大会丨CVPR 2018:GAN、自动驾驶等技术和应用正强势来袭
大会丨CVPR 2018:GAN、自动驾驶等技术和应用正强势来袭

7月28日至29日,中國人工智能大會(CCAI 2018)將在深圳舉行,沈向洋博士將在主會中分享其對於人工智能的最新研究和觀點—《人工智能未來就在眼前》。

摘要:人工智能的時代已經來臨。一方面,計算能力繼續增強,算法發展突飛猛進,數據增長不斷加速, 產業融合勢不可擋。而另一方面,產品化不足,數據利用不足,商業化程度不足,人工智能落地發展還有許多不確定性。在這個主題演講中,我將分享微軟在人工智能領域的戰略理念,並以微軟小冰為例,介紹微軟在把握人工智能未來趨勢、商業模式、技術研發、構建產品及打造數據生態環境等方面的觀察與實踐。

更多大會詳情、參會細節,請關注大會官網:http://ccai2018.caai.cn/

感謝你關注“微軟研究院AI頭條”,我們期待你的留言和投稿,共建交流平臺。來稿請寄:[email protected]


分享到:


相關文章: