監督學習(中)
一、 模型評估策略
- 模型評估訓練集合測試集損失函數和經驗風險訓練誤差和測試誤差
- 模型選擇過擬合和欠擬合正則化和交叉驗證
二、 訓練集和測試集
- 我們將數據輸入到模型中訓練除了模型,但是模型的效果好不好呢? 我們需要對模型進行好壞評估
- 我們將用來訓練模型的數據成為訓練集,將用來測試模型好壞的集合成為測試集
- 訓練集:輸入模型中對模型進行訓練的集合
- 測試集:模型訓練完後測試訓練效果的數據集合
三、 損失函數
- 損失函數是用來衡量模型預測誤差的大小
- 定義: 選取模型f為決策函數,對於給定的輸入參數X,f(X)為預測值,Y為真實結果,f(X)與Y之間可能會有偏差 , 我們就用一個損失函數來衡量預測偏差的程度 , 記做L(Y , f(X))
- 損失函數是模型中係數的函數
- 損失函數值越小, 模型越好
- 常見損失函數: 0-1損失函數
- 常見損失函數:平方損失函數:
- 常見損失函數:絕對損失函數:
- 常見損失函數: 對數損失函數:
四、 經驗風險
- 經驗風險:模型f(X)關於訓練數據集的平均損失成為經驗風險 , 記做
- 經驗風險最小化(Empirical Risk Minimization , ERM):這一策略認為經驗風險最小的模型就是最有模型
- 樣本足夠大時,ERM有很好的學習效果,因為有足夠的“經驗”
- 樣本較小時,ERM就會出現一些問題
五、 訓練誤差和測試誤差
- 訓練誤差:是關於訓練記得平均損失
- 訓練誤差的大小,可以用來判斷給定的問題是否容易學習,但本質上講並不重要
- 測試誤差:是關於測試集的平均損失
- 測試誤差真正反映了模型對未知數據的預測能力,這種能力一般被稱為泛化能力
六、 過擬合和欠擬合
- 欠擬合:模型沒有很好的捕捉到特徵數據,特徵集過小,導致模型不能很好的擬合數據,稱之為欠擬合
- 欠擬合的本質就是對數據的特徵學習的不夠
- 過擬合:把訓練數據學習的太徹底,以至於把噪聲數據的特徵也學習到了,特徵集過大,這樣就會導致後期測試的時候不能夠很好的識別數據,即不能正確的分類,模型泛化能力太差,稱之為過擬合
七、 模型的選擇
- 當模型的複雜度增大時, 訓練誤差會逐漸減小並趨向於0 , 而測試誤差會先減小 , 達到最小值之後會再增大
- 當模型複雜度過大時,就會發生過擬合 , 所以模型複雜度應適當
八、 正則化
- 結構風險最小化(Structural Risk Minimization , SRM)
- 是在ERM的基礎上, 為了防止過擬合而提出來的策略
- 在經驗風險上加上表示模型複雜度的正則化項, 或者叫懲罰項
- 正則化項一般是模型複雜度的單調遞增函數, 即模型越複雜 , 正則化值越大
- 結構風險最小化的典型就是正則化
- 第一項是經驗風險 , 第二項J(f)是正則化項
- 正則化項可以取不同的形式 , 比如 , 特徵向量的L1 範數或L2範數
九、 奧卡姆剃刀
- 奧卡姆剃刀原理:如無必要,勿增實體
- 正則化符合奧卡麼剃刀原理 ,他的思想是:在所有可能選擇的模型的中,我們應該能夠很好的解釋已知數據並且十分簡單的模型。
- 如果簡單的模型已經夠用, 我們不應該一味的最求更小的訓練誤差,而把模型變得越來越複雜
十、 交叉驗證
- 數據集劃分如果樣本數據充足 , 一種簡單的辦法是隨機將數據集切分成是哪個部分L訓練集、 驗證及、 測試集訓練集用於訓練模型 , 驗證集用於模型選擇 , 測試集用於學習方法評估
- 數據不充足是, 可以重複的利用數據 – 交叉驗證
- 簡單交叉驗證:數據隨機分為兩部分,如70%作為訓練集,剩下30%作為測試集訓練集在不同的條件(比如參數個數)下訓練模型,得到不同的模型在測試集上評價各個模型的測試誤差,選出最有模型
- S折交叉驗證將數據隨機切分為S個互不相交、相同大小的子集;S-1個做訓練集,剩下一個做測試集重複進行訓練集、交叉集的選取,有S種可能
- 留一交叉驗證
閱讀更多 大數據小菜雞 的文章