計算機視覺:人工智能的先行者

“人工智能”已經成為了學術界、工業界、媒體以及政府都關注的“學科”或稱“名詞”——因為很多用的人根本就不知道它是什麼,只是顯得高大上而已。

我將不涉及任何技術細節來給讀者展現一幅人工智能的當代圖景,並期待讀者能獲取一些相關哲學觀和方法論。

大多數人目前所說的“人工智能”特指:由“深度學習”帶來的對於解決計算機任務的一系列的方法論。“深度學習”中的“深”,是針對“人工神經網絡”說的,它意味著層數更多的神經網絡。而“人工神經網絡”是模仿人類神經元做的多層結構,這個結構裡下層“神經元”輸出作為上層“神經元”的輸入,每個“神經元”都是一種做加權平均後然後進行非線性映射的結構。

“人工神經網絡”的重要性在於,只要它足夠大,足夠深,它能夠表示任意複雜度的函數。而所謂“深度學習”都可以理解為:給定某個結構,我們去尋找這個結構的參數來最好地逼近某個複雜的函數。所有“深度學習”的進展,包括提出新的網絡結構和提出更快更好的訓練方法,但是目的都是讓神經網絡表現更好。

下面就是神經網絡的一個例子。

計算機視覺:人工智能的先行者

“深度學習”的想法其實上個世紀八十年代就有,那個時候人們只能訓練兩層的神經網絡,現在我們可以把它成為“淺度學習”,更深層的網絡你可以提出來,但是你訓練不出來。原本直覺上說,深層的神經網絡肯定要比淺層的表現更好,但是由於神經網絡的複雜性,人們找不到深層神經網絡的好的參數,所以還不如淺層的表現好,因此深層神經網絡就成了一個雞肋的模型,有這個想法但沒人能用。這個情況一直持續到到2006年。

這一年裡,Geoffrey Hinton發表了一篇文章,裡面提出訓練深層神經網絡可以先對其中的每相鄰兩層進行預訓練,這樣可以給後面的精確訓練提供一個好的初始值,那麼網絡就能夠訓練出來了。他這篇文章一發,Yoshua Bengio跟進一連發了多篇文章對這個方法進行研究,以及他們利用了Yann LeCun在上世紀提出並一直持續研究的卷積神經網絡達到了更好的效果。這三個人獲得了2018年的圖靈獎,而2006年也被稱為深度學習元年。

計算機視覺:人工智能的先行者

從2006年到2012年,這三位研究者一直持續在深度學習領域深耕,提出了很多的神經網絡結構和訓練方法,這使得深度學習逐漸被更多的人關注。但是必須要說,深度學習在這個時候還沒有太大的影響力,所以我們可以稱這段時間為深度學習“創業時期”。

然後時間來到了2012年,這一年裡由Geoffrey Hinton的博士生設計的AlexNet一舉在一個叫ImageNet的比賽裡拿下冠軍,超出了第二名十幾個百分點。他們的工作可以稱為深度學習“創業時期”技術和技巧的集大成者,這一下幾乎讓所有學界的研究者都不得不關注深度學習。

這裡還要說一下ImageNet這個比賽,這裡所用的ImageNet是一個具有一百萬多張圖片的人工標記的數據集,這個標記大約是指,圖片是關於狗的或者關於貓的,比賽就是讓計算機程序判斷給定的一張圖片到底是狗還是貓。其實它還有一個更大的版本,包含一千五百多萬張圖片,兩萬多個分類。到目前為止,ImageNet依然是計算機視覺領域最大的數據集。

計算機視覺:人工智能的先行者

2012年的成功一舉拉開了深度學習“革命時代”的序幕,如久旱逢甘霖一般,深度學習的網絡結構和訓練方法為很多計算機的任務帶來了新思路和新方法,並從軟件影響到硬件的開發,成為了一個蓬勃的時代。

列舉幾個,2014年由Bengio的博士生Ian Goodfellow提出的generative adversarial network,翻譯為生成對抗網絡。它做的任務是讓兩個神經網絡互相打,就比如,你和你的朋友做簡單版你畫我猜,你負責畫圖,他需要猜這個圖到底是你畫的還是照片拍的。這個遊戲想要達到的效果是,你畫的越來越符合真實的照片,而他越來越能分辨是畫還是照片。這樣有點貪心的一舉兩得帶來了很多有意思的想法和應用,比如圖片修補,圖片風格轉換,當然也有反作用,比如人工換臉,把小黃片裡女主的臉換成你喜歡的女明星這一宅男理想成為了現實。這個工作被LeCun稱為“二十年來機器學習領域最出色的想法”,足可見其創新性。

還有一個例子是,何愷明在2016年提出的deep residual network,翻譯為深度殘差網絡,它解決的是網絡能多深的問題。一以貫之地想,是不是在深度學習的訓練方法下,網絡也是越深越好呢?

答案在2016年以前也是否定的,比如18層的網絡可能比34層的更好。這依然是不符合常識的,而深度殘差網絡基本解決了這個問題,它能夠讓101層的網絡表現得比幾十層的要好,藉此也得到了2016年一個計算機領域頂級會議的最佳論文。它的基本想法是,在兩層之間加一條“高速公路”,這樣就能有一些信息不是逐層傳遞的,而是通過“高速公路”,類比“綠色通道”或“八百里加急”。那麼通過這條“高速公路”,一些重要的信息就可以完整而迅速地傳遞個各個網絡層,避免了信息的丟失,那麼結果就會更好。這兩個工作都是負重致遠,影響深刻,廣泛應用的,提出者也成為了炙手可熱的學術新星。

計算機視覺:人工智能的先行者


計算機視覺:人工智能的先行者

如今這個革命時代依然在蓬勃發展,並且逐漸積澱和深化,開始從學術界的話題成為工業界的產品,進入每個人的日常生活。

以上基本是深度學習的一個簡史,但同時也是深度學習下的計算機視覺(computer vision, cv)的一個簡史。因為2006年的工作是在計算機視覺的任務上做的,2012年的工作是在計算機視覺的比賽上打的,2014年和2016年的兩個工作都是在做計算機視覺的任務的時候提出來的。計算機視覺,它見證了深度學習的開始,發展和輝煌。它一次一次成為深度學習的金子一般的想法的濫觴,進而影響其他領域,成為行業標準和規範。

計算機視覺:人工智能的先行者

如今的計算機視覺依然是深度學習研究最成熟最深刻的工具,數據集和開發平臺最標準的領域,依然是深度學習從學術界到工業界的排頭兵,如今計算機視覺四小龍商湯、曠視、依圖和雲從都是炙手可熱的創業公司獨角獸。這也就我說計算機視覺是深度學習或者說人工智能的“先行者”的原因。



分享到:


相關文章: