CVPR 2018 中國論文分享會之「分割與檢測」

CVPR 2018 中国论文分享会之「分割与检测」

AI 科技評論按:本文為 2018 年 5 月 11 日在微軟亞洲研究院進行的 CVPR 2018 中國論文宣講研討會中第 5 個 Session ——「Segmentation, Detection」環節的三場論文報告。

在第一個報告中,來自西北工業大學的戴玉超教授介紹了他們在物體檢測方面的工作。其工作的新穎之處在於,他們將較為經濟的但不太精確的傳統手工方法應用於深度學習網絡當中,即將傳統手工方法得到的結果視作預測結果 + 噪聲,從而作為監督信號來同時訓練預測模型和噪聲模型,實現了傳統方法在深度學習時代的又一春。

第二個報告由來自商湯科技的石建萍博士介紹了商湯科技在自動駕駛相關問題中的研究工作,分別包括場景理解、物體理解、視頻理解和 3D 場景結構理解。其中物體理解方面的工作在去年 COCO 物體分割和物體識別中分別獲得第一名和第二名的成績。

來自微軟亞洲研究院的廖菁研究員在第三個報告中介紹了微軟亞洲研究院在神經風格變換方面的相關工作,包括理論和應用兩方面。在理論方面,他們通過分析先前的風格轉換不同類型的優缺點,設計出了一種綜合兩類模型優點,同時摒棄其缺點的模型。在應用方面,考慮到風格變換應用於VR/AR中,如果兩個視野的風格變換不一致將會導致鬼影出現,他們通過加入約束解決了該問題。

AI科技評論注:

[1] CVPR 2018 中國論文宣講研討會由微軟亞洲研究院、清華大學媒體與網絡技術教育部-微軟重點實驗室、商湯科技、中國計算機學會計算機視覺專委會、中國圖象圖形學會視覺大數據專委會合作舉辦,數十位 CVPR 2018 收錄論文的作者在此論壇中分享其最新研究和技術觀點。研討會共包含了 6 個 session(共 22 個報告),1 個論壇,以及 20 多個 posters, AI 科技評論將為您詳細報道。

更多報道請參看:

一、傳統方法如何在深度學習時代盎然生機?

論文:Deep Unsupervised Saliency Detection: A Multiple Noisy Labeling Perspective

報告人:戴玉超- 西北工業大學,教授

https://arxiv.org/abs/1803.10910

從 2012 年深度卷積網絡出現並被廣泛且成功地引入到其他領域後,許多傳統的方法都被拋棄到垃圾堆裡。

CVPR 2018 中国论文分享会之「分割与检测」

以視覺顯著性檢測為例,即從一幅圖像中提取人眼最感興趣的區域或者物體,當前所有的 benchmark 方法都是基於深度卷積網絡。那麼傳統的基於經驗和手工設計的方法在深度學習的時代真的就完全沒用了嗎?

1、動機

戴玉超教授的這篇論文的工作正是對上述問題的回答。儘管深度學習方法當前來看取得了極大的成功,但是這些方法大多是基於監督學習,也即需要用大量、準確的標註數據,而對於視覺顯著性檢測任務來講,標註數據依然是一個困難的事情。而另一方面,傳統的手工顯著性檢測方法中融入了人類的知識,儘管其表現不如現在大多數的基於深度神經網絡的方法,但是它可以通過無監督學習的方法獲得結果。

CVPR 2018 中国论文分享会之「分割与检测」

於是戴玉超教授等人就想,是否可以將傳統方法所獲得的結果看做是一個理想的顯著性檢測圖與噪聲的疊加,從而將這個結果作為監督來同時訓練顯著性檢測模塊和噪聲模塊?如果成功,那麼這將是一個端到端的無監督視覺顯著性檢測模型。

2、框架

首先描述其任務,即:當給定一個彩色圖像 x_i 時,通過不同的「無監督顯著性方法」得到一系列帶噪聲的顯著性圖 y_ij,在這些結果的監督下學習一個更好的顯著性圖。

戴玉超等人設計的模型如下圖所示:

CVPR 2018 中国论文分享会之「分割与检测」

這裡包含一個隱藏的顯著性檢測模塊和一個噪聲模型模塊。當給定一個輸入圖像後,一個無監督的手工的顯著性檢測方法會生成一個噪聲顯著性圖 y_ij。他們在這個框架中將這個圖視為待預測的顯著性圖與一個噪聲的疊加。這個噪聲是一個預設的帶參數的模型,例如高斯分佈模型。通過不斷地優化,最小化 loss 函數:

CVPR 2018 中国论文分享会之「分割与检测」

從而同時訓練出一個較好的顯著性模型和相應的噪聲模型。

3、實驗結果

這裡提到三種 baseline:第一種是用帶噪聲的無監督顯著性直接作為 ground truth 進行監督訓練;第二種是用平均後的無監督顯著性作為 ground truth 進行監督訓練;第三種是當前用標註數據進行監督訓練的模型。對比結果如下:

CVPR 2018 中国论文分享会之「分割与检测」

同時他們也比較了當前幾種較好的監督和無監督模型:

CVPR 2018 中国论文分享会之「分割与检测」

從上述兩個結果中,可以看出這種方法相比多數無監督模型的結果都要好很多,而相比監督學習也並不差;最為關鍵的問題是,它不需要標註數據,是一個端到端的模型。

這種新穎的方法,顯然可以很輕易地拓展到其他領域,包括語義分割等。

二、自動駕駛中的研究問題

報告題目:Effective Scene Understanding for Autonomous Driving (4 papers)

報告人:石建萍 - 商湯科技

[1] 場景理解:Context Encoding for Semantic Segmentation ( oral )

[2] 物體理解:Path Aggregation Network for Instance Segmentation ( spotlight )

[3] 視頻理解:Low-Latency Video Semantic Segmentation ( spotlight )

[4] 3D 場景結構理解:GeoNet: Unsupervised Learning of Dense Depth, Optical Flow and Camera Pose ( poster )

石建萍在此介紹了商湯科技在 CVPR 2018 上發表的眾多文章中的 4 篇,分別為自動駕駛研究中的場景理解、物體理解、視頻理解和 3D 場景結構理解。

1、場景理解

關於場景理解,商湯科技在 CVPR 2017 的一篇錄用論文中已做了相關研究,他們在那篇文章中提出了 PSPNet 模型,通過 pyramid pooling 的方法對場景做了一個全局的表示。

CVPR 2018 中国论文分享会之「分割与检测」

這種方式能夠得到比較好的場景信息,但是(1)這個 pyramid pooling 的結構是人為設計出來的;(2)其計算仍然相對比較 heavy。針對這兩點,他們在今年的這篇文章中做了進一步的優化和加速。其基本的想法就是將人為設計的 pyramid pooling 換成一種更靈活、有效的模塊。

CVPR 2018 中国论文分享会之「分割与检测」

首先,他們把 feature encode 成類似 dictionary Learning 的表達方式。當一張輸入圖片經過 CNN 網絡之後,把信息 encode 到 dictionary basis 裡面,其中場景的表述就被學到其中的 feature 上。然後再把學習到的場景的 feature 拉伸到圖片原有維度,於是便可以得到場景的信息。

除了 context encoding module,石建萍等人在模型中還加入了一個 loss,即 semantic encoding loss,其目的是為了學習全局中某一類別是否存在,加了這樣一個全局約束後,對於那些較小的類別的預測將更好一些。

CVPR 2018 中国论文分享会之「分割与检测」

整體來說這種方法比去年的方法的表現稍好一點,但是石建萍仍然對此表示遺憾,因為她認為整個這個方向在去年一年裡並沒有提升太多,所以還需要去看是否是因為別的原因(例如數據原因)導致性能無法有較大提升。

2、物理理解

物體理解的這篇文章是他們去年在 COCO 比賽中的工作,其中在物體分割上獲得了第一名,在物體檢測中獲得了第二名。

CVPR 2018 中国论文分享会之「分割与检测」

據石建萍介紹,他們最初的目的就是希望能夠達到比較高的指標,因此他們當時就基於兩個最好的框架,一個是 FPNet,一個是 Mask-RCNN,並做了一系列的改進。

他們設計出的網絡如下:

CVPR 2018 中国论文分享会之「分割与检测」

從這個網絡中,仍然可以看出 FPNet 和 Mask-RCNN 的影子。其改進的地方是:(a)將 FPNet 的 backbone 做了一次 bottom-up 的增強;(b)在 FPNet 中每一個 scale 的 proposal 都是從對應的 scale 直接得來的,但石建萍他們發現事實上其他 scale 也將對該 scale 的 proposal 有很大幫助,因此他們加入了 adaptive feature learning 的模塊;(c)在 Mask-RCNN 這一塊,他們加入了 fully-connected fusion,這樣可以保持更多的全局信息,使得 mask 有進一步的提升。

下面是加入各個模塊後在性能上所帶來的提升:

CVPR 2018 中国论文分享会之「分割与检测」

3、視頻理解

從實際場景中拿到的大部分數據都是視頻數據,但是至今仍然沒有一個能夠很好地利用視頻的方案。石建萍等人在這篇文章中考慮的一個重點是如何降低視頻理解中的 latency,同時保持較好的表現。

其設計的網絡如下圖所示:

CVPR 2018 中国论文分享会之「分割与检测」

關鍵的思想就是,給關鍵幀相對較高的計算量,而比較類似的幀相應地就少分配一些計算。在網絡中,另一個比較關鍵的點是,把前一幀的 feature 傳遞給後一幀。

CVPR 2018 中国论文分享会之「分割与检测」

他們針對 features,設定一個 threshold,從而可以自動地選取關鍵幀。顯然這裡 threshold 值的大小也決定了計算的精度;事實上如果沒有必要完全可以設置一個稍高的 threshold。此外,這種方式也可以動態地反映視頻幀的變化,例如當場景變化較快時關鍵點也會較快地出現。

CVPR 2018 中国论文分享会之「分割与检测」

feature 傳遞則是通過底層的 feature 學習相應的權重,這些權重是和 input 相關的,通過這些權重可以實現自動地特徵傳遞。另外一點是,他們還設計了調度策略,使得整個關鍵幀的計算可以延後,也即在非關鍵幀的部分也可以同時去計算關鍵幀的信息;通過這個調度方案,可以有效地將整個網絡的延遲降下來。

CVPR 2018 中国论文分享会之「分割与检测」

相比來說其他的方案在做視頻理解時,往往需要針對每一幀做一個較為 heavy 的計算,而這篇文章所提出的方案能夠有效降低整個模型的 latency,而同時保證了較高的性能。

4、3D場景結構理解

CVPR 2018 中国论文分享会之「分割与检测」

之前 3D 場景結構理解的研究中,有做深度的估計,有做光流的估計,有做 camera 運動的估計等,但它們的每個部分都是獨立的網絡。石建萍等人因此考慮是否可以是否可以基於 CNN 的方案,加上幾何約束,來構建一個統一的框架,同時能夠得到一個更好的結果呢?

網絡模型的結構如下圖所示:

CVPR 2018 中国论文分享会之「分割与检测」

整個模型為無監督網絡,業績不需要任何外部信息就可以把深度、光流、相機運動訓練出來。首先通過一個 DepthNet 來預測深度,得到一個 depth map;另外用 PoseNet 通過前後兩幀之間的信息來預測 camera motion;隨後將 depth map 和 camera motion 組合成 rigid flow,通過 rigid flow 與 final flow 即可完成一個監督學習。

另一方面,考慮到場景中會有一些不變的結構(rigid structure);而人、車等則會因為運動而變化(non-rigid motion)。所以他們將這兩部分分解開來。通過 camera motion 可以比較容易地處理前者;對於 object motion 則需再加一個額外的約束。

整個 objective function 如下所示,包含了以上全部過程的 loss:

CVPR 2018 中国论文分享会之「分割与检测」

最後結果可以看到,用這種無監督的方法可以達到比以前的方法靠譜地多的深度、Flow 的結果,同時發現對運動比較大的 object 效果也是比較好的。代碼下載鏈接:http://github.com/yzcjtr/GeoNet

三、從深度和廣度介紹神經風格變換

報告題目:Extensions of Neural Style Transfer

報告人:廖菁 - 微軟亞洲研究院

論文下載:

1. Arbitrary Style Transfer with Deep Feature Reshuffle

2. Stereoscopic Neural Style Transfer

廖菁介紹了他們團隊在 CVPR 2018 上發表的兩篇關於 Neural Style Transfer 的延展性工作。一個是在深度方向的延展,即從理論上對以往的 NST 進行分類和總結,並提出了一種綜合各方優點的方法。另一個是在廣度方向的延展,也即 NST 在 VR 和 AR 領域的應用,他們提出了約束左右眼風格變換不一致的網絡模型。

1、Deeper:分類和延展

風格轉換目前已經成為一個熱門的研究課題。其中 Neural Style Transfer 指的是,當給定兩張圖,一張是 Style Image,一張是 Content Image,然後通過一個預訓練的神經網絡將前者的風格變換到後者之上。這種方法通常依賴於預訓練的 CNN,CNN 能夠對圖像有一個很好的分解能力,在高層表徵圖像的 content,在低層表徵圖像的 style。

CVPR 2018 中国论文分享会之「分割与检测」

因此就希望這張圖像的 deep feature 在高層能夠和 content image 相似,而在低層則和 Style image 相似。這即是 Neural Style Transfer 大體的思路。

目前所有的神經風格轉換都定義了兩個 loss 函數,分別為 content loss 和 style loss。這些神經風格轉換模型的 content loss 通常都採用了 feature map 之間的 L^2 loss 函數;但是在 style loss 上不同的模型卻各不相同。

CVPR 2018 中国论文分享会之「分割与检测」

這兩種模型都各自有優缺點。

CVPR 2018 中国论文分享会之「分割与检测」

parametric model 能夠很好地學習到 style 的整體特徵;但是它很難保證 localtexture 的結構,同時還會忽略一些空間佈局,例如上圖中將帆船的紅色映射到了海水中。

CVPR 2018 中国论文分享会之「分割与检测」

另一方面,non-parametric model 能夠很好地保證 local 的結構,但是它很有可能沒法保證對整體的模仿(上圖中藍色格調並沒有遷移到嬰兒身上),此外由於 local 的方法沒有限制 patch 怎麼使用,所有有可能導致某一兩個 patch 被大量的使用(上面貓圖中黃色 patch 被大量使用),最終產生一個 wash-out artifact。

那麼一個自然的思考就是,能否提出一種方法將兩者的優點結合起來,而同時又能夠避免各自的缺點呢?廖菁團隊提出了這樣一種新穎的方法,他們稱之為 reshuffle。

CVPR 2018 中国论文分享会之「分割与检测」

這種方法的核心思想史:將 style image 的 deep feature 做一個重排,也即每個 pixel 出現一次,但是出現的位置已經和原圖不一樣了。這種重排的結果首先先天地就符合 local 的 style loss;另一面,global loss 當前主要使用的就是對所有 pixel 進行加和的 gram matrix 方法,這種方法並不關心 pixel 是怎樣分佈的,所以即使打亂了 pixel 的分佈,也不會影響 global loss 的結果。因此這種 reshuffle 的方法即符合定義在 gram matrix 上的 global style,同時也符合定義在 patch 上的 local style。在論文中,他們對這個結果做了數學上的分析,這裡不再展開。

不過這個方法中有一個嚴格的要求,即每個 pixel 只能出現一次。這種要求有時候會有問題,例如下圖:

CVPR 2018 中国论文分享会之「分割与检测」

這裡 content image 中有兩個人四個眼睛,而 Style image 裡面只有一個人兩隻眼睛。如果只允許 patch 用一次的話,眼睛的 patch 將不夠用。所以在實際操作中,廖菁他們定義了一個相對 soft 的 parameter,通過這個參數控制 patch 的使用數量。當參數比較大的時候,其約束就比較強,這時候模型更接近於 global 方法;相反則更接近 non-parametric 的 local 的結果。通過設置參數可以動態地調節結果偏向,從而自適應地來融合兩方的特徵。

模型框架如下圖所示:

CVPR 2018 中国论文分享会之「分割与检测」

風格轉換後的對比圖如下:

CVPR 2018 中国论文分享会之「分割与检测」

從結果可以看出,這種 reshuffle 的方法的結果,相比 paramtric 的方法可以更好地保持局部的 texture,而相比 non-parametric 的方法可以更好地重現 Style 的整體特徵。

2、Broader:VR/AR 雙眼風格一致

現在 VR 和 AR 非常火,微軟也出了相關的產品 Hololens。當將風格轉換應用在 VR/AR 上時,首先將會出現一個問題,即 VR/AR 設備有左眼視野和右眼視野,如果對兩個視野的圖像單獨做風格轉換,也即它們的轉換之間沒有相關性,那麼結果將導致左右眼看到的轉換後的風格圖像並不一致,當帶上 VR/AR 時就會出現各種鬼影,使得用戶不能很好地感受 3D 的風格結構。

CVPR 2018 中国论文分享会之「分割与检测」

解決這個問題的關鍵,即將左右眼的約束加入到風格轉換過程當中,這個約束被稱為 disparity constraint。

CVPR 2018 中国论文分享会之「分割与检测」

廖菁團隊定義了一個新的 network,大致來說分為三個部分。

CVPR 2018 中国论文分享会之「分割与检测」

首先是一個圖像風格轉換網絡,這個網絡可以是市面上任意一種圖像風格轉換網絡,只要它能夠分成 encoder 和 decoder 兩部分。

CVPR 2018 中国论文分享会之「分割与检测」

其次,是一個 disparity occlusion network,這個網絡將左右眼的圖像當做 input,它會輸出兩幀圖像間的 disparity,以及其置信度。

CVPR 2018 中国论文分享会之「分割与检测」

中間這一部分則是根據 disparity 做一個 feature 的增強,其方式就是將左眼和右眼對稱地向中間去 warp,然後在中間域做一個增強,得到一個可信的結果後再分別投影到左眼和右眼。

加入約束後的效果如動圖所示:

CVPR 2018 中国论文分享会之「分割与检测」

相關文章:

CVPR 2018 中国论文分享会之「分割与检测」

CCF - GAIR 2018 將於

6 月 29 日 至 7 月 1 日

在深圳舉行。

三天議程及強大陣容已經陸續出爐。

6 月 8 日,

AI 科技評論啟動了

CCF-GAIR 2018 的免費門票申請通道,

並計劃從中篩選 20 位學生,

承包「國內往返機票+四晚住宿」

AI 科技評論讀者專屬福利。

福利發出後,

表單如海水一樣湧入後臺系統,

截至 6 月 14 日晚 24 點,

第一批申請表單已經截止申請,

同事們最近也都在加班加點審核表單。

在此,

AI 科技評論由衷感謝

同學們對 CCF-GAIR 大會的關注!

從眾多申請之中,

AI 科技評論甄選了 12 名學生,

他們將成為第一批獲得

價值 3999 元 CCF-GAIR 2018 大會門票

「國內往返機票+四晚住宿」福利的同學!

AI 科技評論將第一批獲獎學生名單

及所屬院校公佈如下(共 12 位):

新加坡南洋理工大學 張徵豪

斯坦福大學 孫林

清華大學 孔濤

賓夕法尼亞大學 王倪劍橋

北京航空航天大學 黃雷

澳大利亞國立大學 劉瀚陽

中國科學院 王昌淼

香港科技大學 李正

上海交通大學 徐衍鈺

華中科技大學 李柏依

香港理工大學 曹自強

香港中文大學 楊巍

在此向以上同學表示祝賀,

運營小姐姐將很快聯繫你們喲~

並備註姓名及院校。

但是!

我們的福利申請並沒有結束!

從 6 月 15 日 0 時開始,

AI 科技評論將開啟第二批福利申請通道,

將繼續篩選 8 名同學贈送價值 3999 元 CCF-GAIR 2018 大會門票

及「國內往返機票+四晚住宿」福利!

本福利申請截至 6 月 21 日晚 24 點,

預計將於 6 月 22 日公佈獲獎名單。

填寫個人信息申請!

與此同時,

暫時沒有入選第一批名單的同學們也不需要灰心,

我們也會在所有提交申請的同學中,

篩選部分學生

陸續進行一對一聯繫,

贈送價值 3999 元的 CCF-GAIR 大會門票。

(此門票包含三天午餐喲!)

贈票申請通道截止日期為

6 月 26 日晚 24:00

6 月 29 日至 7 月 1 日,深圳見!

贈票申請須知

➤ 截止日期:6 月 26 日晚 24:00

➤ 活動解釋權歸雷鋒網 AI 科技評論所有


分享到:


相關文章: