03.03 卷積神經網絡真的完美無瑕嗎?

喬-左傾90°


卷積神經網絡(Convolutional Neural Networks, ConvNets or CNNs)是一種在圖像識別與分類領域被證明特別有效的神經網絡。隨著近幾年不斷的發展與創新,卷積神經網絡已經擴展出更多的功能。再次,簡單列舉幾個方面:

1)分類任務classification

卷積神經網絡最善長的就是完成分類任務,比如一張圖片上是貓、還是狗、是飛機還是汽車。


2)檢索任務(Retrieval)

我們在用淘寶購物的時候,其實就已經在使用這個功能了,比如說我們想買一條裙子,既可以在搜索欄搜關鍵字,也可以直接輸入想要的款式,淘寶就會根據你提供的圖片,檢索出相似的款式推薦給你


3)檢測任務(Detection)

檢測任務要完成兩個事情,一是檢測圖中的物體,也就是要用方框圈出圖片中的多物體;二是要給出框出的物體的名稱。檢測任務包含了分類和迴歸兩個過程。


4)分割任務(Segmentation)

圖像語義分割的意思就是機器自動分割並識別出圖像中的內容,比如在近年的自動駕駛技術中,就需要用到這種技術。利用車載攝像頭探查到圖像,傳給後臺計算機,使其自動將圖像分割歸類,以避讓行人和車輛等障礙。

5)其他識別任務

此外,還有像認臉識別,現在蘋果手機不是也推出了刷臉功能,支付寶也在開發刷臉支付,也就是說卷機神經網絡能進行特徵的提取。


類似的工作還有人體姿態檢測,或者叫做關鍵點定位,這個功能可以用在視頻文件的分類任務上。


6)圖像與自然語言結合

近幾年卷機神經網絡也開始和循環神經網絡RNN、LSTM等網絡結果,輸入一張圖片,計算機就能用自然語言的形式告訴你圖片都描述了什麼。這一功能在跨媒體搜索領域中發揮作用,用文字搜圖片,用圖片搜文字等。


7)風格轉移

最後,再介紹一個比較有意思的工作,風格轉移就是將圖像A的風格轉換到圖像B中去,得到新的圖像,即包含了B的內容同時也有A的風格。



北航秦曾昌


當然不是,有很多問題。首先包括卷積神經網絡在內的深度學習技術缺少嚴謹的數學理論支撐,導致深度技術主要依靠做實驗來改進模型,存在盲目性;其次,卷積網在處理圖像時容易被一些人眼觀察不到的細微干擾影響,導致人眼觀察幾乎相同的圖片,神經網絡卻會得到截然不同的分類結果。這個缺點導致卷積網可能會在特定條件下崩潰,缺乏穩定性,在cvpr2017論文集,以及深度學習鼻祖hinton近期論文capsule net中有相關論述。


分享到:


相關文章: