批歸一化到底做了什麼？DeepMind研究者進行了拆解

2020-03-24 13:09:31 機器之心Pro

選自arXiv

作者：Soham De、Samuel L. Smith

機器之心編譯

參與：魔王

批歸一化有很多作用，其最重要的一項功能是大幅提升殘差網絡的最大可訓練深度。DeepMind 這項研究探尋了其中的原因，並進行了大量驗證。

論文鏈接：https://arxiv.org/abs/2002.10444

批歸一化用處很多。它可以改善損失分佈（loss landscape），同時還是效果驚人的正則化項。但是，它最重要的一項功能出現在殘差網絡中——大幅提升網絡的最大可訓練深度。

DeepMind 近期一項研究找到了這項功能的原因：在初始化階段，批歸一化使用與網絡深度的平方根成比例的歸一化因子來縮小與跳躍連接相關的殘差分支的大小。這可以確保在訓練初期，深度歸一化殘差網絡計算的函數由具備表現良好的梯度的淺路徑（shallow path）主導。

該研究基於此想法開發了一種簡單的初始化機制，可以在不使用歸一化的情況下訓練非常深的殘差網絡。研究者還發現，儘管批歸一化可以維持模型以較大的學習率進行穩定訓練，但這隻在批大小較大的並行化訓練中才有用。這一結果有助於釐清批歸一化在不同架構中的不同功能。

批歸一化到底幹了什麼

跳躍連接和批歸一化結合起來可以大幅提升神經網絡的最大可訓練深度。

DeepMind 研究者將殘差網絡看作多個路徑的集成，這些路徑共享權重，但是深度各有不同（與 Veit 等人 2016 年的研究類似），進而發現批歸一化如何確保非常深的殘差網絡（數萬層）在訓練初期被僅包含幾十個層的淺路徑主導。原因在於，批歸一化使用與網絡深度的平方根成比例的因子縮小與跳躍連接相關的殘差分支的大小。這就為深度歸一化殘差網絡在訓練初期可得到高效優化提供了直觀解釋，它們只是把具備表現良好的梯度的淺層網絡集成起來罷了。

上述觀察表明，要想在不使用歸一化或不進行認真初始化的前提下訓練深度殘差網絡，只需要縮小殘差分支即可。

為了確認這一點，研究者改動了一行代碼，實現不使用歸一化的深度殘差網絡訓練（SkipInit）。結合額外的正則化後，SkipInit 網絡的性能可與經過批歸一化的對應網絡不相上下（該網絡使用常規的批大小設置）。

為什麼深度歸一化殘差網絡是可訓練的？

殘差分支經過歸一化後，假設 ˆf_i 的輸出方差為 1。每個殘差塊的方差增加 1，則第 i 個殘差塊前的激活的預期方差為 i。因此，對於任意遍歷第 i 個殘差分支的路徑，其方差縮小到 1/i，這說明隱藏層激活縮小到 1/√ i。

如圖 3 所示，該縮小因子很強大，可確保具備 10000 個殘差塊的網絡 97% 的方差來自遍歷 15 個或者更少殘差分支的淺路徑。典型殘差塊的深度與殘差塊總數 d 成比例，這表明批歸一化將殘差分支縮小到 1/√ d。

圖 3：此圖模擬了初始化階段不同深度的路徑對 logits 方差的貢獻。

為了驗證這一觀點，研究者評估兩個歸一化殘差網絡的不同通道的方差，以及批統計量（batch statistics），如下圖 4 所示。

圖 4(a) 中，深度線性 ResNet 的跳躍路徑方差幾乎等於當前深度 i，而每個殘差分支末端的方差約為 1。這是因為批歸一化移動方差約等於深度，從而證實歸一化將殘差分支縮小到原本的 1/√ i。

圖 4(b) 中，研究者在 CIFAR-10 數據集上評估使用 ReLU 激活函數的卷積 ResNet。跳躍路徑的方差仍與深度成正比，但係數略低於 1。這些關聯也導致批歸一化移動平均數的平方隨著深度的增加而增大。

圖4。

這就為「深度歸一化殘差網絡是可訓練的」提供了簡潔的解釋。這一觀點可以擴展至其他歸一化方法和模型架構。

SkipInit：歸一化的替代方案

研究者發現，歸一化之所以能夠確保深度殘差網絡的訓練，是因為它在初始化階段按與網絡深度平方根成正比的歸一化因子縮小殘差分支。

為了驗證該觀點，研究者提出了一個簡單的替代方法——SkipInit：在每個殘差分支末端放置一個標量乘數，並將每個乘數初始化為 α。

圖 1：A) 使用批歸一化的殘差塊。B) SkipInit 用一個可學習標量 α 替代了批歸一化。

移除歸一化之後，只需改動一行代碼即可實現 SkipInit。研究者證明，按 (1/ √ d) 或更小的值初始化 α 就可以訓練深度殘差網絡（d 表示殘差塊數量）。

研究者引入了 Fixup，它也可以確保殘差塊在初始化時表示 identity。但是，Fixup 包含多個額外組件。在實踐中，研究者發現 Fixup 的組件 1 或組件 2 就足以在不使用歸一化的前提下訓練深度 ResNet-V2 了。

實證研究

下表 1 展示了 n-2 Wide-ResNet 在 CIFAR-10 數據集上訓練 200 epoch 後的平均性能，模型深度 n 在 16 到 1000 層之間。

表 1：批歸一化使得我們可以訓練深度殘差網絡。然而在殘差分支末端添加標量乘數 α 後，不使用歸一化也能實現同樣的效果。

下表 2 驗證了，當 α = 1 時使用 SkipInit 無法訓練深度殘差網絡，因此必須縮小殘差分支。研究者還確認了，對於未經歸一化的殘差網絡，只確保激活函數不在前向傳播上爆炸還不夠（只需在每次殘差分支和跳過路徑合併時將激活乘以 (1/ √ 2) 即可實現）。

表 2：如果 α = 1，我們無法訓練深度殘差網絡。

批歸一化的主要功能是改善損失分佈，增加最大穩定學習率。下圖 5 提供了 16-4 Wide-ResNet 在 CIFAR-10 數據集上訓練 200 epoch 後的平均性能，批大小的範圍很大。

圖 5：使用批歸一化要比不使用獲得的測試準確率更高，研究者還能夠以非常大的批大小執行高效訓練。

為了更好地理解批歸一化網絡能夠以更大批大小進行高效訓練的原因，研究者在下圖 6 中展示了最優學習率，它可以最大化測試準確率、最小化訓練損失。

圖 6：使用和不使用批歸一化情況下的最優學習率。

研究者在 ImageNet 數據集上對 SkipInit、Fixup 初始化和批歸一化進行了實驗對比，證明 SkipInit 可擴展至大型高難度數據分佈。

下表 3 展示了最優驗證準確率。研究者發現卷積層包含偏置可使 SkipInit 的驗證準確率出現小幅提升，因此研究者在所有 SkipInit 運行中添加了偏置。SkipInit 的驗證性能與批歸一化相當，與使用標準批大小 256 的 Fixup 相當。但是，當批大小非常大時，SkipInit 和 Fixup 的性能不如批歸一化。

表 3：研究者訓練了 90 個 epoch，並執行網格搜索，以找出最優學習率，從而最大化模型在 ImageNet 數據集上的 top-1 驗證準確率。

分享到:

閱讀更多 機器之心Pro 的文章

關鍵字: 人工智能拆解研究者

「AutoML」歸一化(Normalization)方法如何進行自動學習和配置

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"

批歸一化到底做了什麼？DeepMind研究者進行了拆解

相關文章:

「AutoML」歸一化(Normalization)方法如何進行自動學習和配置

第二章 IoC容器和Bean配置

運算裡不得不說的python模塊—math

Devops度量--DevOps 現狀快速檢查表

SOP是什麼（解讀）

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

DNS偵查工具

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

（必收藏系列）Linux面試題——命令集

五分鐘學會如何在 IPFS 上部署網站

「正點原子NANO STM32F103開發板資料連載」第29章 內存管理實驗

小白怎麼學Web前端開發 如何成為技術達人

如何開發一個web靜態服務器

學Java編程還有前景嗎 如何才能拿到高薪

Python網絡爬蟲之配置篇（一）

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

Python的運行效率太低？幾行代碼快速提升！

python的優點是什麼？最新Python400集視頻（附教程）

MySQL中OOM故障應如何下手-愛可生

像專家一樣使用 panic

30種不同的編程語言怎麼寫“Hello, World”

percona QAN 介紹

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

網絡工程師職業生涯中，哪兩點是最重要的？

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

Hive分桶表

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

第一章 Spring Framework概述

opencv人工智能深度學習這樣實現人臉的年齡檢測

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

Redis內存分析工具--rdr安裝與使用

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

一行代碼提升遷移性能

利用相似幾何信息，做可泛化3D形狀分割模型

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

分佈式緩存，真香

特徵工程的力量

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

SpringBoot如何優雅的使用RocketMQ

css代碼規範工具stylelint

02.27 一個人有50萬存款但沒有房子，另一個人有100萬的房子但沒有存款，誰會過得更幸福？

02.27 為什麼斑和帶土控制的九尾表現遠不如鳴人的半隻九尾？

02.27 目前從周口去鄭州上班都需要什麼證明？

02.27 請問你們覺得林子祥、蔣大為誰的高音更高，創造歌曲、演唱方面你們傾向誰的歌多一些？

02.27 《海賊王》若是單挑認真打，藤虎幹掉明哥要多久？

02.27 通過這次新型冠狀病毒肺炎疫情，你對中醫和西醫有什麼看法？

02.27 《火影忍者》中，藥師兜在穢土轉生曉成員時為什麼不轉生鬼鮫？

02.27 生產口罩原材料的上市公司有哪些？

02.27 姐弟戀的人最後都是什麼結局？

02.27 一個母親在家裡的情緒，真的會影響到一家人嗎？

02.27 疫情之下，如何解決農產品出現的滯銷現象？

02.27 大家覺得《錦衣之下》和《從前有座靈劍山》哪個劇更耐看？為什麼？

02.27 如果一個追你的男生長得很醜，還顯老，根本就不是你喜歡的那種，但是對你很好怎麼辦？

02.27 知道自己的缺點，卻從來不想改的人是什麼心理？

02.27 一家人都去吃飯了，我生病掛針到半夜，沒有一個人給我帶飯，是不是很沒有人情味？

02.27 你們喜歡譚松韻嗎？喜歡譚松韻的什麼電視劇與什麼角色？

02.27 關係很好的同事在背後說我壞話該如何處理？

02.27 現在受疫情影響，感冒在小診所不治，在藥店買不到藥怎麼辦？

02.27 老婆不上班，就帶小孩，小孩送去學校就沒什麼事了！平時做點家務什麼的，這樣好嗎？

02.27 農業創業最缺什麼人才？

02.27 燉牛腩，如何才能做到軟嫩而多汁？

02.27 疫情過後，農村電商如何發展？

02.27 新冠疫情爆發帶給我們的啟發是什麼？又帶給中醫藥什麼啟發？

02.27 《錦衣之下》裡嚴世蕃為什麼感覺只鍾情於曾刺瞎他一隻眼睛的林菱？

02.27 二代火影是怎麼死的？

02.27 肉雞養殖價格波動為何非常大，從一塊多到四五塊一斤，也就十來天的時間。為什麼？

02.27 “人，別隨便說前任的壞話，侮辱前任等於貶低自己”，你怎麼看？

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

小白怎麼學Web前端開發如何成為技術達人

學Java編程還有前景嗎如何才能拿到高薪