用於圖像識別的深度殘差學習!

論文摘要:神經網絡的訓練因其層次加深而變得愈加困難。我們所提出的殘差學習框架可以更輕鬆的對比前人所提深很多的網絡進行訓練。相對於之前網絡所學習的是無參考的函數,我們顯著改進的網絡結構可根據網絡的輸入對其殘差函數進行學習。我們提供的詳實經驗證據表明對這樣的殘差網絡進行尋優更加容易,並且隨網絡層次的顯著加深可以獲得更好的準確率。我們利用ImageNet數據集驗證了深達152層殘差網絡——儘管這個網絡的深度是VGG網絡[41]的8倍,然而複雜度卻相對較低。該殘差網絡對ImageNet測試集的錯誤率為3.57%,這個結果取得了2015年ILSVRC分類任務的第一名。此外,我們分析了分別用100層和1000層網絡對CIFAR-10數據集的處理。


今天的論文為卷積網絡提供了一種新的體系結構。在我們開始之前,我會提醒你:這篇論文很古老。它發表於2015年底的深度學習的黑暗時代,它的原始格式還是紙莎草紙,還好,有人對它進行了掃描,以便後代可以讀取它。它提出的架構已經被一次又一次地使用,包括我們以前讀過的一些論文:Deep Networks with Stochastic Depth「具有隨機深度的深度網絡」。(https://arxiv.org/abs/1603.09382)

首先要注意看似矛盾的情況:非常深的網絡比中等深度的網絡執行得更差,也就是說,雖然向網絡添加圖層通常可以提高性能,但在某些時候新圖層會開始阻礙網絡。他們將這種影響稱為網絡退化。

隨著網絡變得越來越深,像消失漸變這樣的訓練問題變得越來越糟糕,所以您會希望更多層在某個點之後使網絡變得更糟。但作者預計這種推理和陳述,其他幾種深度學習方法,如批量標準化,本質上已經解決了這些訓練問題,隨著深度的增加,網絡仍然表現得越來越差。例如,他們比較20層和56層網絡,發現56層網絡的性能要差得多,這是在論文中看到的圖片。

用於圖像識別的深度殘差學習!

比較CIFAR-10上的20層和56層網絡。請注意,56層網絡在訓練和測試中表現較差。

然後,作者們開展了一個思維實驗(或者如果你是像我這樣的恢復物理學家的實驗室)來證明更深層次的網絡應該始終表現更好。他們的論點如下:

  • 從一個性能良好的網絡開始;

  • 添加被強制作為身份識別功能的附加圖層,也就是說,他們只需傳遞無需更改的任何信息;

  • 這個網絡更深,但是由於新層不做任何事情,所以必須具有與原始網絡相同的性能;

  • 網絡中的層可以學習標識功能,所以如果它是最優的,他們應該能夠精確地複製這個深層網絡的性能。

這個思想實驗導致他們提出他們深度殘差學習架構。他們構建了他們稱之為剩餘構建塊的網絡。下圖顯示了一個這樣的塊。這些塊已被稱為ResBlocks。

用於圖像識別的深度殘差學習!

ResBlock,在頂部學習殘差函數f(x),並且信息沿底部傳遞不變。這是由Huang等人的Stochastic Depth論文修改的圖像。

ResBlock由與整流線性單元(ReLU)連接的正常網絡層構成,並在下面通過來自前一層的信息不變地饋送。 ResBlock的網絡部分可以包含任意數量的層,但最簡單的是兩層。

要深入瞭解ResBlock背後的數學知識:讓我們假設一組圖層在學習到特定函數h(x)時表現最好。作者注意到殘差f(x)= h(x)?x可以被學習,並與原始輸入結合起來,使得我們恢復h(x)如下:h(x)= f x)+ x。這可以通過向網絡添加一個+ x組件來完成,回想我們的思想實驗,這只是身份函數。作者希望將這種“傳遞”添加到他們的層面將有助於訓練。與大多數深度學習一樣,只有這種直覺支持該方法,而不是更深入的理解。然而,正如作者們所表明的那樣,它是有效的,並且這是我們許多從業者關心的唯一事情。

論文還探討了對ResBlock的一些修改。首先中間層使用較少的輸入和輸出來收集信息流。第二個是測試不同類型的傳遞連接,包括學習一個完整的投影矩陣。儘管更復雜的傳遞效果會更好,但它們會稍微花費一些時間,而且以訓練時間為代價。

用於圖像識別的深度殘差學習!

論文的其餘部分將測試網絡的性能。作者發現,他們的網絡比沒有傳遞的相同網絡表現更好。他們還發現,他們可以訓練更深層次的網絡,並且仍然表現出更高的性能,最終訓練了152層ResNet,其性能優於更淺的網絡。他們甚至還訓練了一個1202層的網絡來證明它是可行的,但發現它的性能比本文所研究的其他網絡差。

比較兩個網絡的性能:左側的網絡不使用ResBlocks,而右側的網絡則使用ResBlocks。請注意,34層網絡的性能優於18層網絡,但僅限於使用ResBlocks時。

他們還提出了一個由思想實驗驅動的新架構,並希望它能比以前更好地工作。他們構建了幾個網絡,包括一些非常深的網絡,並發現他們的新架構確實提高了網絡的性能。雖然我們沒有深入瞭解深度學習的基本原理,但我們確實得到了一種使我們的網絡更好地發揮作用的新方法,並且最終可能已經足夠好了。

Alexander Gude目前是Lab41的一名數據科學家,負責調查推薦系統算法。他擁有加州大學伯克利分校的物理學學士學位以及明尼蘇達大學雙城分校的基礎粒子物理學博士學位。

Lab41是一個“挑戰實驗室”,美國情報界與學術界、工業界和In-Q-Tel的同行一起處理大數據。它使來自不同背景的參與者能夠獲得想法、才能和技術,以探索數據分析中什麼可行,什麼不可行。 Lab41是一個開放式的協作環境,培養參與者之間的寶貴關係。


分享到:


相關文章: