機器學習:什麼是預測模型性能評估

介紹

評價指標與機器學習任務具有相關性。分類、迴歸、排序、聚類、主題建模等任務都有不同的度量標準。一些度量標準,如精度、召回率,可用於多個任務。分類、迴歸和排序是監督學習的例子,它包含了大多數機器學習應用程序。在本文中,我們將關注監督機器學習模塊的度量標準。

什麼是模型評估?

評估模型是整個機器學習模型開發過程中非常重要的一步。一些方法,如神經網絡模型在執行反向傳播時進行評估。儘管如此,我們仍然通過各種方法手工執行模型的評估。

監督學習下的機器學習模型大致分為兩類 - 迴歸問題和分類問題。此外,評估這些模型的方法也僅屬於這兩類。

評估迴歸和分類模型的方法之間存在根本區別:

  • 通過迴歸,我們處理連續值,其中可以識別實際輸出和預測輸出之間的誤差。
  • 在評估分類模型時,重點是我們可以正確分類的預測數量。為了正確評估分類模型,我們還必須考慮我們錯誤分類的數據點。此外,我們處理兩種類型的分類模型。其中一些產生類輸出,如KNN和SVM,其輸出只是類標籤。其他是概率生成模型,如Logistic迴歸,隨機森林等,它們的輸出是數據點屬於特定類的概率,通過使用截止值,我們能夠將這些概率轉換為類標籤,然後我們可以最終對數據點進行分類。

模型評估技術

模型評估是模型開發過程中不可或缺的一部分。它有助於找到代表我們數據的最佳模型。它還關注所選模型在未來的運作情況。使用訓練數據評估模型性能在數據科學中是不可接受的。它可以輕鬆生成過度優化和過度擬合的模型。在數據科學中,有兩種評估模型的方法,即保持和交叉驗證。為避免過度擬合,兩種方法都使用測試集(模型未見)來評估模型性能。

模型評估是模型開發過程中不可或缺的一部分。它有助於找到表示數據的最佳模型。它還關注所選模型在未來的運作情況。在數據科學中,用訓練數據評價模型性能是不可接受的。在數據科學中,有兩種評估模型的方法:Hold-Out和交叉驗證法。為了避免過度擬合,兩種方法都使用測試集來評估模型性能。

Hold-Out

在這種方法中,大多數大型機器學習數據集被隨機分為三個子集:

  1. 訓練集是構建預測模型的數據集的子集。
  2. 驗證集是數據集的子集,用於評估在訓練階段構建的機器學習模型的性能。它提供了一個測試平臺,用於微調模型的參數並選擇性能最佳的模型。並非所有建模算法都需要驗證集。
  3. 測試集是數據集的子集,用於評估模型的未來可能性能。如果模型擬合訓練集比擬合測試集的好的多,那麼原因可能是過度擬合。

交叉驗證

當只有有限數量的數據可用時,為了實現對模型性能的無偏差估計,我們使用k-fold交叉驗證。在k-fold交叉驗證中,我們將數據劃分為大小相等的k個子集。我們構建模型時,每次從訓練中刪除一個子集,並將其作為測試集使用。如果k等於樣本大小,這是一個“leave-one-out”方法。

迴歸模型評估方法

在構建了許多不同的迴歸模型之後,我們可以通過豐富的標準來評估和比較它們

均方根誤差

RMSE是衡量回歸模型錯誤率的常用公式。我們只能比較在相同單位下可以測量的模型的誤差

機器學習:什麼是預測模型性能評估

相對平方誤差

與RMSE不同的是,相對平方誤差(RSE)可以在模型之間進行比較,我們可以用不同的單位測量模型的誤差

機器學習:什麼是預測模型性能評估

平均絕對誤差

平均絕對誤差是原始值和預測值之間差異的平均值。它為我們提供了預測與實際輸出相距多遠的度量。然而,它們並沒有給我們任何關於誤差方向的概念,即我們是對數據預測不足還是預測過度。數學上表示為:

機器學習:什麼是預測模型性能評估

相對絕對誤差

與RSE一樣,相對絕對誤差(RAE)可以在不同單位測量誤差的模型之間進行比較。

機器學習:什麼是預測模型性能評估

決定係數

決定係數(R2)總結了迴歸模型的解釋力,並根據平方和項計算。

機器學習:什麼是預測模型性能評估

R2描述了由迴歸模型解釋的因變量的方差比例。如果迴歸模型為“完美”,則SSE為零,R2為1。如果迴歸模型為完全失敗,則SSE等於SST,迴歸不解釋方差,R2為零。

標準化殘差(Errors)圖

標準化殘差圖是一種有用的可視化工具,可以在標準化的尺度上顯示殘差的分佈規律。標準化殘差圖的模式與常規殘差圖中的模式沒有本質區別。唯一不同的是y軸上的標準化尺度,它允許我們輕鬆地檢測潛在的離群值。

分類模型評估方法

混淆矩陣

混淆矩陣顯示分類模型與數據中的實際結果(目標值)相比所做的正確和不正確預測的數量。矩陣是N × N,其中N是目標值(類)的數量。通常使用矩陣中的數據來評估這些機器學習模型的性能。下表顯示了兩個類(正和負)的2×2混淆矩陣。

機器學習:什麼是預測模型性能評估

  • 準確性(Accuracy):正確的預測總數的比例。
  • 陽性預測值(Positive Predictive Value)或精度(Precision):正確識別的陽性實例的比例。
  • 陰性預測值(Negative Predictive Value):正確識別的陰性實例的比例。
  • 靈敏度(Sensitivity )或召回率(Recall):正確識別的實際陽性實例的比例。
  • 特異性(Specificity):正確識別的實際陰性實例的比例。
機器學習:什麼是預測模型性能評估

Gain和Lift

Gain和Lift是分類模型有效性的度量,其計算方法是使用該模型和不使用該模型的結果之間的比值。這些圖是用於評估分類模型性能的視覺輔助工具。與評估整個群體的模型的混合矩陣相比,Lift圖評估一部分群體的模型性能。

機器學習:什麼是預測模型性能評估

例:

機器學習:什麼是預測模型性能評估

Gain Chart

機器學習:什麼是預測模型性能評估

Lift Chart

Lift Chart顯示,與隨機抽樣的客戶相比,我們收到正面回應的可能性要大得多。舉例來說,通過我們的預測模型僅聯繫10%的客戶,我們將達到沒有模型的三倍的受訪者。

機器學習:什麼是預測模型性能評估

KS圖

KS或Kolmogorov-Smirnov圖測量分類模型的性能。更準確地說,KS是衡量正負分佈之間分離程度的指標。如果得分將群體劃分為兩個獨立的組,其中一組包含所有正面而另一組包含所有負面,K-S為100。另一方面,如果模型不能區分正面和負面,那麼就好像模型從總體中隨機選擇案例,K-S將為0。在大多數分類模型中,K-S將介於0和100之間,並且值越高,模型在分離正面和負面情況時越好。

示例:以下示例顯示分類模型的結果。該模型為每個positive (Target)和negative (Non-Target)結果分配0-1000之間的分數。

機器學習:什麼是預測模型性能評估

機器學習:什麼是預測模型性能評估

ROC

ROC圖類似於gain或lift圖,因為它們提供了分類模型之間比較的方法。ROC曲線還顯示x軸為假陽性率(1-特異度),真值為0時目標為1的概率,y軸為真陽性率(靈敏度),真值為1時目標為1的概率。理想情況下,曲線會迅速向左上方攀升,這意味著模型的預測是正確的。此外,對角線紅線是一個隨機模型。

機器學習:什麼是預測模型性能評估

曲線下面積(AUC)

ROC曲線下面積通常是分類模型質量的度量。隨機分類器的曲線下面積為0.5,而完美分類器的AUC等於1.實際上,大多數分類模型的AUC在0.5和1之間。

機器學習:什麼是預測模型性能評估

例如,ROC曲線下面積為0.8,表示從目標值為1的組中隨機抽取的樣本,80%的時間得分大於目標值為0的組中隨機抽取的樣本得分。此外,當分類器無法區分這兩組時,面積將等於0.5(與對角線重合)。當兩組完全分離時,即分佈不重疊,ROC曲線下面積達到1 (ROC曲線將達到圖的左上角)。


分享到:


相關文章: