機器學習和推薦系統(八)監督學習(中)

監督學習(中)

一、 模型評估策略

  1. 模型評估訓練集合測試集損失函數和經驗風險訓練誤差和測試誤差
  2. 模型選擇過擬合和欠擬合正則化和交叉驗證

二、 訓練集和測試集

  1. 我們將數據輸入到模型中訓練除了模型,但是模型的效果好不好呢? 我們需要對模型進行好壞評估
  2. 我們將用來訓練模型的數據成為訓練集,將用來測試模型好壞的集合成為測試集
  3. 訓練集:輸入模型中對模型進行訓練的集合
  4. 測試集:模型訓練完後測試訓練效果的數據集合

三、 損失函數

  1. 損失函數是用來衡量模型預測誤差的大小
  2. 定義: 選取模型f為決策函數,對於給定的輸入參數X,f(X)為預測值,Y為真實結果,f(X)與Y之間可能會有偏差 , 我們就用一個損失函數來衡量預測偏差的程度 , 記做L(Y , f(X))
  3. 損失函數是模型中係數的函數
  4. 損失函數值越小, 模型越好
  5. 常見損失函數: 0-1損失函數
機器學習和推薦系統(八)監督學習(中)

  1. 常見損失函數:平方損失函數:
機器學習和推薦系統(八)監督學習(中)

  1. 常見損失函數:絕對損失函數:
機器學習和推薦系統(八)監督學習(中)

  1. 常見損失函數: 對數損失函數:
機器學習和推薦系統(八)監督學習(中)

四、 經驗風險

  1. 經驗風險:模型f(X)關於訓練數據集的平均損失成為經驗風險 , 記做
機器學習和推薦系統(八)監督學習(中)

機器學習和推薦系統(八)監督學習(中)

  1. 經驗風險最小化(Empirical Risk Minimization , ERM):這一策略認為經驗風險最小的模型就是最有模型
  2. 樣本足夠大時,ERM有很好的學習效果,因為有足夠的“經驗”
  3. 樣本較小時,ERM就會出現一些問題

五、 訓練誤差和測試誤差

  1. 訓練誤差:是關於訓練記得平均損失
機器學習和推薦系統(八)監督學習(中)

  1. 訓練誤差的大小,可以用來判斷給定的問題是否容易學習,但本質上講並不重要
  2. 測試誤差:是關於測試集的平均損失
  3. 測試誤差真正反映了模型對未知數據的預測能力,這種能力一般被稱為泛化能力

六、 過擬合和欠擬合

機器學習和推薦系統(八)監督學習(中)

  1. 欠擬合:模型沒有很好的捕捉到特徵數據,特徵集過小,導致模型不能很好的擬合數據,稱之為欠擬合
  2. 欠擬合的本質就是對數據的特徵學習的不夠
  3. 過擬合:把訓練數據學習的太徹底,以至於把噪聲數據的特徵也學習到了,特徵集過大,這樣就會導致後期測試的時候不能夠很好的識別數據,即不能正確的分類,模型泛化能力太差,稱之為過擬合

七、 模型的選擇

  1. 當模型的複雜度增大時, 訓練誤差會逐漸減小並趨向於0 , 而測試誤差會先減小 , 達到最小值之後會再增大
  2. 當模型複雜度過大時,就會發生過擬合 , 所以模型複雜度應適當
機器學習和推薦系統(八)監督學習(中)

八、 正則化

  1. 結構風險最小化(Structural Risk Minimization , SRM)
  2. 是在ERM的基礎上, 為了防止過擬合而提出來的策略
  3. 在經驗風險上加上表示模型複雜度的正則化項, 或者叫懲罰項
  4. 正則化項一般是模型複雜度的單調遞增函數, 即模型越複雜 , 正則化值越大
  5. 結構風險最小化的典型就是正則化
機器學習和推薦系統(八)監督學習(中)

  1. 第一項是經驗風險 , 第二項J(f)是正則化項
  2. 正則化項可以取不同的形式 , 比如 , 特徵向量的L1 範數或L2範數

九、 奧卡姆剃刀

  1. 奧卡姆剃刀原理:如無必要,勿增實體
  2. 正則化符合奧卡麼剃刀原理 ,他的思想是:在所有可能選擇的模型的中,我們應該能夠很好的解釋已知數據並且十分簡單的模型。
  3. 如果簡單的模型已經夠用, 我們不應該一味的最求更小的訓練誤差,而把模型變得越來越複雜

十、 交叉驗證

  1. 數據集劃分如果樣本數據充足 , 一種簡單的辦法是隨機將數據集切分成是哪個部分L訓練集、 驗證及、 測試集訓練集用於訓練模型 , 驗證集用於模型選擇 , 測試集用於學習方法評估
  2. 數據不充足是, 可以重複的利用數據 – 交叉驗證
  3. 簡單交叉驗證:數據隨機分為兩部分,如70%作為訓練集,剩下30%作為測試集訓練集在不同的條件(比如參數個數)下訓練模型,得到不同的模型在測試集上評價各個模型的測試誤差,選出最有模型
  4. S折交叉驗證將數據隨機切分為S個互不相交、相同大小的子集;S-1個做訓練集,剩下一個做測試集重複進行訓練集、交叉集的選取,有S種可能
  5. 留一交叉驗證


分享到:


相關文章: