錯過2018年的CVPR沒關係,別再錯過這10篇論文!

點擊上方關注,All in AI中國

2018年全球計算機視覺和模式識別會議(CVPR)近日在美國鹽湖城舉行。這是計算機視覺領域中的世界頂級會議。今年,CVPR收到了3,300份主要的會議論文,其中有979份論文被接納。超過6,500人參加了會議。

錯過2018年的CVPR沒關係,別再錯過這10篇論文!

每年,CVPR都會吸引很多優秀的人才和他們的研究成果;總有一些新的東西值得去看和學習。同理,總有一些論文發表會有新的突破性成果,併為該領域帶來新知識,給行業注入新鮮的血液。這些論文經常為計算機視覺的許多子領域塑造帶來最新的技術。

隨著計算機視覺領域的深度學習,我們發現了所有的可能性。許多論文都將展示深度網絡在視覺中的全新應用。它們可能不是最根本的突破性作品,但它們很有趣,能為該領域提供創造性和啟發性的視角,可以從它們呈現的新角度激發新的想法。總而言之,它們非常酷!

在這裡,本文將向你展示作者認為是在2018年CVPR上的10篇最酷的論文。你將看到通過使用深度網絡實現的最新應用,以及如何應用它們的最新方法。你可能會在此過程中有一些新的收穫。讓我們開始吧!

用合成數據訓練深度網絡:通過領域隨機化縮小現實差距(https://arxiv.org/abs/1804.06516)

本文來自Nvidia,核心思想是充分利用合成數據來訓練卷積神經網絡(CNN)。他們為Unreal Engine 4創建了一個插件,它將會生成合成訓練數據。其中的關鍵是他們將訓練數據可能擁有的變量進行了隨機化,包括:

  • 目標物體的數量和類型
  • 干擾項的數量、類型、顏色和規模
  • 目標物體和背景照片的圖案
  • 針對不同場景的虛擬攝像機的位置
  • 針對不同場景攝像機的角度
  • 點光源的數量和位置

研究人員展示了利用合成數據進行預訓練後出色的效果和效率,結果達到了前所未有的水平。這也對你在沒有重要數據來源時提供了一種思路,即生成並使用合成數據。

錯過2018年的CVPR沒關係,別再錯過這10篇論文!

WESPE:用於數碼相機的弱監督照片增強器(http://www.vision.ee.ethz.ch/~ihnatova/wespe.html)

這項研究通過訓練生成對抗網絡(GAN)來美化照片,也就是"修圖"。很酷的部分是,它是受到弱監督的。你不需要有輸入和輸出的圖像,想要訓練網絡,你所需要的只是一組"好看"的圖像(用於輸出基礎事實)和一組想要增強的"不好看"的圖像(用於輸入圖像)。然後,通過訓練GAN以產生輸入圖像的美學增強版本,使其符合審美,它通常會改進圖像的顏色和對比度。

這一款應用使用起來非常快捷方便,因為你不需要精確的圖像對,最終會得到一個"通用"的圖像增強器。作者還喜歡這篇論文的一點是它弱監督的方法,非監督的學習看起來似乎相當遙遠,但對於計算機視覺中的許多子領域而言,弱監管似乎是一個充滿希望且可靠的方向。

錯過2018年的CVPR沒關係,別再錯過這10篇論文!

用Polygon-RNN ++對圖像分割數據集進行高效地交互式標註(https://arxiv.org/abs/1803.09693)

深度網絡之所以能有巨大幫助,正是得益於大型的經過標註的數據集。然而,對於許多計算機視覺任務而言,想獲得這樣的數據既費時又成本高昂。特別是分割的數據需要對圖片中的每個像素進行分類標註。所以對大型數據集來說,標註是永遠都標不完的。

而Polygon-RNN ++允許你在圖像中的每個目標物體周圍大致圈出多邊形形狀,然後網絡將自動生成分割標註!論文中表明這種方法實際上很好推廣,可以用來為分割任務創建快速簡便的標註!

錯過2018年的CVPR沒關係,別再錯過這10篇論文!

從時尚配圖中創造自己的"衣櫃"(https://arxiv.org/abs/1712.02662)

"嗯,我今天應該穿什麼?"如果有人可以每天早上為你回答這個問題,那將再好不過了。

在這篇論文中,作者設計了一個模型,給出候選服裝和配件的清單,模型能對各件單品進行組合,提供所有可能的混合搭配方案。事實上它是使用目標函數進行訓練,這些目標函數只在捕捉視覺兼容性、多功能性和用戶偏好等關鍵要素。有了它,你可以輕鬆搭配最適合你的最佳服裝!

錯過2018年的CVPR沒關係,別再錯過這10篇論文!

Super SloMo:用於視頻插值的多箇中間幀的高質量估計(https://arxiv.org/abs/1712.00080)

你曾經是否想以超級慢動作來拍攝超級炫酷的東西呢?那麼Nvdia的Super SloMo就是你的最佳選擇!用CNN估計視頻中間幀,能夠將標準的30fps視頻轉換為240fps的慢動作回放視頻!該模型估計了幀與幀之間的光流,並將它插入視頻幀中間,使慢動作視頻看起來更加清晰流暢。

錯過2018年的CVPR沒關係,別再錯過這10篇論文!

從視覺數據構建狗的行為模型(https://arxiv.org/abs/1803.10827)

這可能是有史以來最酷的研究論文!這項研究的想法是試圖模擬狗的思想和行為。研究人員將許多傳感器連接到狗的四肢以收集其運動的數據; 他們還在狗的頭部安裝了一個攝像頭,從而獲得"狗狗視角下的畫面"。為了從視頻幀中提取圖片特徵,研究人員用到了CNN特徵提取器,之後和傳感器數據一起被傳輸到LSTM中,預測狗的行為。這種非常新穎和具有創造性的應用程序,以及任務框架和執行的獨特方式使這篇論文非常有可讀性!希望這樣的數據收集方法和深度學習技術的應用能激勵未來的研究。

錯過2018年的CVPR沒關係,別再錯過這10篇論文!

學會分割一切(https://arxiv.org/abs/1711.10370)

在過去的幾年裡,何凱明團隊(以前在微軟研究院,現在就職於Facebook AI Research)提出了許多重大的計算機視覺研究成果。他們的研究最棒之處在於將創造力和簡單性相結合。ResNet和Mask R-CNN都算不上是最瘋狂、最複雜的點子,雖然它們簡潔易用,但在實際中非常高效。

Learning to Segment Every Thing是Mask R-CNN的擴展,它使網絡能夠分割在訓練期間從未見過的目標物體!這對於快速獲取數據集中的標籤非常有幫助,同時成本也較低。事實上,它可以對從未見過的目標種類獲取強大的基本分類,這對於實際應用這類分割網絡是非常重要的,因為在這樣的環境中可能有很多陌生種類。總的來說,這是大多數深度網絡模型應該考慮的正確方向。

錯過2018年的CVPR沒關係,別再錯過這10篇論文!

桌上足球(https://arxiv.org/abs/1806.00890)

本論文的研究是在FIFA世界盃開幕時正式發佈的,理應獲得最佳時機獎!它確實是使CVPR計算機視覺變的"更酷"應用之一。簡而言之,作者訓練了一個模型,在給定足球比賽視頻的情況下,該模型可以輸出該比賽的動態3D重建,也就是說你可以用AR技術隨時隨地查看比賽。

最巧妙的是,作者將不同種類的信息結合了起來。使用視頻遊戲數據訓練網絡,數據可以用3D網格輕鬆提取。在測試時,運動員的邊界框、姿勢和軌跡都被提取出來,以進行分割。這些3D分割可以輕鬆投射到任意平面上。這也是用合成數據進行訓練的好方法。

錯過2018年的CVPR沒關係,別再錯過這10篇論文!

LayoutNet:從單個RGB圖像重建3D房間佈局(https://arxiv.org/abs/1803.08999)

這是一個計算機視覺應用程序,我們很多人可能曾經想過:使用相機拍攝某些東西,然後用數字3D技術重建它。這正是本文的目的,特別是重建3D房間佈局。研究人員使用全景圖像作為輸入,以獲得房間的完整視圖。輸出是3D重建後的房間佈局,具有相當高的準確性!該模型足夠強大,可以推廣到不同形狀、幷包含許多不同的傢俱的房間。這是一個有趣而好玩、又不需要投入太多研究人員就能夠實現的應用程序。

錯過2018年的CVPR沒關係,別再錯過這10篇論文!

學習可遷移的架構以實現可擴展圖像識別任務(https://arxiv.org/abs/1707.07012)

最後要介紹的是一項許多人都認為是深度學習未來的研究:神經架構搜索(NAS)。NAS背後的基本思想是,我們可以使用另一個網絡"搜索"最佳模型架構,而不是手動設計網絡架構。搜索會基於一個獎勵函數,在驗證集上函數會根據模型表現進行獎勵。作者表示這種架構比手動設計的精確度更高,並且靈活性更好。 此外,作者在論文中表明,這種模型結構比起手動設計的模型能夠獲得更高的精度。這將是未來巨大的研究方向,特別是對於設計特定的應用程序而言。因為我們真正關注的是設計好的NAS算法,而不是為我們特定的應用設計特定的網絡。精心設計的NAS算法將足夠靈活,並能夠為任何任務找到良好的網絡結構。

錯過2018年的CVPR沒關係,別再錯過這10篇論文!

結束語

希望你能從中學到一些新的有用的東西,甚至可能為你自己的研究找到一些新的想法!

錯過2018年的CVPR沒關係,別再錯過這10篇論文!


分享到:


相關文章: