Current two layer neural network:
優化:
優化RELU(隱藏層), wider
增加linear層,layer deeper
Performance: few parameters by deeper
隨層級變高,獲得的信息越綜合,越符合目標
About t-model
- t-model只有在有大量數據時有效
- 今天我們才有高效的大數據訓練方法:Better Regularization
- 難以決定適應問題的神經網絡的規模,因此通常選擇更大的規模,並防止過擬合
Avoid Overfit
Early Termination
當訓練結果與驗證集符合度下降時,就停止訓練
Regularization
給神經網絡里加一些常量,做一些限制,減少自由的參數
L2 regularization
在計算train loss時,增加一個l2 norm作為新的損失,這裡需要乘一個β(Hyper parameter),調整這個新的項的值
Hyper parameter:拍腦袋參數→_→
l2模的導數容易計算,即W本身
DropOut
最近才出現,效果極其好
- 從一個layer到另一個layer的value被稱為activation
- 將一個layer到另一個layer的value的中,隨機地取一半的數據變為0,這其實是將一半的數據直接丟掉
- 由於數據缺失,所以就強迫了神經網絡學習redundant的知識,以作為損失部分的補充
- 由於神經網絡中總有其他部分作為損失部分的補充,所以最後的結果還是OK的
- More robust and prevent overfit
- 如果這種方法不能生效,那可能就要使用更大的神經網絡了
- 評估神經網絡時,就不需要DropOut,因為需要確切的結果
- 可以將所有Activation做平均,作為評估的依據
- 因為我們在訓練時去掉了一半的隨機數據,如果要讓得到Activation正確量級的平均值,就需要將沒去掉的數據翻倍
來源:ahangchen / https://github.com/ahangchen/GDLnotes ,只作分享,不作任何商業用途,版權歸原作者所有
閱讀更多 科科大數據 的文章