Deep Learning(深度學習)學習筆記整理(二)

接上

因為我們要學習的是特徵的表達,那麼關於特徵,或者說關於這個層級特徵,我們需要了解地更深入點。所以在說Deep Learning之前,我們有必要再囉嗦下特徵(呵呵,實際上是看到那麼好的對特徵的解釋,不放在這裡有點可惜,所以就塞到這了)。

四、關於特徵

特徵是機器學習系統的原材料,對最終模型的影響是毋庸置疑的。如果數據被很好的表達成了特徵,通常線性模型就能達到滿意的精度。那對於特徵,我們需要考慮什麼呢?

4.1、特徵表示的粒度

學習算法在一個什麼粒度上的特徵表示,才有能發揮作用?就一個圖片來說,像素級的特徵根本沒有價值。例如下面的摩托車,從像素級別,根本得不到任何信息,其無法進行摩托車和非摩托車的區分。而如果特徵是一個具有結構性(或者說有含義)的時候,比如是否具有車把手(handle),是否具有車輪(wheel),就很容易把摩托車和非摩托車區分,學習算法才能發揮作用。

Deep Learning(深度學習)學習筆記整理(二)

Deep Learning(深度學習)學習筆記整理(二)

4.2、初級(淺層)特徵表示

既然像素級的特徵表示方法沒有作用,那怎樣的表示才有用呢?

1995 年前後,Bruno Olshausen和 David Field 兩位學者任職 Cornell University,他們試圖同時用生理學和計算機的手段,雙管齊下,研究視覺問題。

他們收集了很多黑白風景照片,從這些照片中,提取出400個小碎片,每個照片碎片的尺寸均為 16x16 像素,不妨把這400個碎片標記為 S[i], i = 0,.. 399。接下來,再從這些黑白風景照片中,隨機提取另一個碎片,尺寸也是 16x16 像素,不妨把這個碎片標記為 T。

他們提出的問題是,如何從這400個碎片中,選取一組碎片,S[k], 通過疊加的辦法,合成出一個新的碎片,而這個新的碎片,應當與隨機選擇的目標碎片 T,儘可能相似,同時,S[k] 的數量儘可能少。用數學的語言來描述,就是:

Sum_k (a[k] * S[k]) --> T, 其中 a[k] 是在疊加碎片 S[k] 時的權重係數。

為解決這個問題,Bruno Olshausen和 David Field 發明了一個算法,稀疏編碼(Sparse Coding)。

稀疏編碼是一個重複迭代的過程,每次迭代分兩步:

1)選擇一組 S[k],然後調整 a[k],使得Sum_k (a[k] * S[k]) 最接近 T。

2)固定住 a[k],在 400 個碎片中,選擇其它更合適的碎片S’[k],替代原先的 S[k],使得Sum_k (a[k] * S’[k]) 最接近 T。

經過幾次迭代後,最佳的 S[k] 組合,被遴選出來了。令人驚奇的是,被選中的 S[k],基本上都是照片上不同物體的邊緣線,這些線段形狀相似,區別在於方向。

Bruno Olshausen和 David Field 的算法結果,與 David Hubel 和Torsten Wiesel 的生理發現,不謀而合!

也就是說,複雜圖形,往往由一些基本結構組成。比如下圖:一個圖可以通過用64種正交的edges(可以理解成正交的基本結構)來線性表示。比如樣例的x可以用1-64個edges中的三個按照0.8,0.3,0.5的權重調和而成。而其他基本edge沒有貢獻,因此均為0 。

Deep Learning(深度學習)學習筆記整理(二)

另外,大牛們還發現,不僅圖像存在這個規律,聲音也存在。他們從未標註的聲音中發現了20種基本的聲音結構,其餘的聲音可以由這20種基本結構合成。

Deep Learning(深度學習)學習筆記整理(二)

Deep Learning(深度學習)學習筆記整理(二)

4.3、結構性特徵表示

小塊的圖形可以由基本edge構成,更結構化,更復雜的,具有概念性的圖形如何表示呢?這就需要更高層次的特徵表示,比如V2,V4。因此V1看像素級是像素級。V2看V1是像素級,這個是層次遞進的,高層表達由底層表達的組合而成。專業點說就是基basis。V1取提出的basis是邊緣,然後V2層是V1層這些basis的組合,這時候V2區得到的又是高一層的basis。即上一層的basis組合的結果,上上層又是上一層的組合basis……(所以有大牛說Deep learning就是“搞基”,因為難聽,所以美其名曰Deep learning或者Unsupervised Feature Learning)

Deep Learning(深度學習)學習筆記整理(二)

直觀上說,就是找到make sense的小patch再將其進行combine,就得到了上一層的feature,遞歸地向上learning feature。

在不同object上做training是,所得的edge basis 是非常相似的,但object parts和models 就會completely different了(那咱們分辨car或者face是不是容易多了):

Deep Learning(深度學習)學習筆記整理(二)

從文本來說,一個doc表示什麼意思?我們描述一件事情,用什麼來表示比較合適?用一個一個字嘛,我看不是,字就是像素級別了,起碼應該是term,換句話說每個doc都由term構成,但這樣表示概念的能力就夠了嘛,可能也不夠,需要再上一步,達到topic級,有了topic,再到doc就合理。但每個層次的數量差距很大,比如doc表示的概念->topic(千-萬量級)->term(10萬量級)->word(百萬量級)。

一個人在看一個doc的時候,眼睛看到的是word,由這些word在大腦裡自動切詞形成term,在按照概念組織的方式,先驗的學習,得到topic,然後再進行高層次的learning。

4.4、需要有多少個特徵?

我們知道需要層次的特徵構建,由淺入深,但每一層該有多少個特徵呢?

任何一種方法,特徵越多,給出的參考信息就越多,準確性會得到提升。但特徵多意味著計算複雜,探索的空間大,可以用來訓練的數據在每個特徵上就會稀疏,都會帶來各種問題,並不一定特徵越多越好。

Deep Learning(深度學習)學習筆記整理(二)

好了,到了這一步,終於可以聊到Deep learning了。上面我們聊到為什麼會有Deep learning(讓機器自動學習良好的特徵,而免去人工選取過程。還有參考人的分層視覺處理系統),我們得到一個結論就是Deep learning需要多層來獲得更抽象的特徵表達。那麼多少層才合適呢?用什麼架構來建模呢?怎麼進行非監督訓練呢?

下續


分享到:


相關文章: