決策樹與隨機森林

飛馬網於17月6日晚為大家邀請到魅族NLP算法工程師段喜平老師為大家分享決策樹與隨機森林方面的知識。

以下為今晚直播的全部內容:

決策樹與隨機森林


大家晚上好,今天給大家講一下決策樹和隨機森林。

決策樹與隨機森林


首先講一下基於樹模型這個簡介,它一般被認為是監督學習最好的而且是比較常用的方法之一,因為他的準確率很高且易解釋。樹模型和線模型各自有優缺點:如果自變量和因變量用線模型很好表達,那線性迴歸就會優於樹模型;如果自變量和因變量比較複雜,那麼樹模型就會優於經典的迴歸方法,如果你要一個比較好解釋的模型的話,決策樹模型總會比線性模型更好。

常見的樹模型一般是指決策樹,經典算法有ID3、C4.5、CART。在這個基礎上又有隨機森林和GDB、XGBOOST。在整個學習過程中,決策樹是整個關鍵,特徵選擇又是決策樹中的重中之重。

以一個示例來說明決策樹的過程。

首先把迴歸和分類兩個問題說清楚。

迴歸一般是指預測具體的值,分類我們只需要知道類別。

這些就是在做算法是用到的特徵,這就要用到取值,比如26歲,然後目標就是要不要見這個人。上圖就是決策的整個流程。

在這個過程中,為什麼先選擇年齡作為首要參考,這涉及到樹的劃分問題。

樹劃分一般有四種方式:

決策樹與隨機森林


1、信息熵:信息論裡面用來衡量不確定性的一個標準,熵越大,隨機變量的不確定性越大。

舉個例子:一個盒子裡裝喲紅黑球,隨機取出一個,判斷球的顏色。

在判斷時假如給出三條信息:盒子裡全是紅球(那麼已經獲得全部信息);盒子裡紅黑比例是3:1(這時候信息不完整,但能確定得到紅球的比例更大);比例是1:1(得到的信息很少,不確定性很大).

對信息的定義:l(xi)=−log2p(xi)

對一個數據集來說,數據集有序程度是通過類別變量在整個數據集的頻率決定的,加入數據樣本有d個,類別有k個,ck表示樣本個數,整訓練集的為H(D),H(D)的公式就如圖。

經驗熵與條件熵:

信息熵是指隨機變量的條件概率的log值

經驗熵是隨機變量x的信息期望值,在訓練集上,經驗熵類別的一個有序程度的度量。

條件熵是在給定隨機變量x條件下,隨機變量y的不確定。

2、吉尼係數

吉尼係數和信息增益都是先把數據集分成幾個集合,然後分別計算每個集合的正負樣本,也就是樣本出現的頻率。

3、卡方

4、方差

ID3和C4.5、CART

ID3和C4.5兩個算法流程其實是一致的。

決策樹與隨機森林


在ID3裡面是把信息增益作為選擇特徵的一個方法,首先對各個特徵計算出條件熵,然後選擇條件熵裡面最大的特徵最為第一個分割的條件,接著在生成的子數里面在選擇一個特徵作為第二個分割條件,這個數在滿足條件的時候會停止分列,有以下幾種情況:

第一種情況:如果這個集合裡面全部都是正樣本或者全部是同一類別的樣本的時候,那麼這個子集合就不用在繼續分割了;

第二種情況:全部特徵都用完了,

第三種情況:在計算信息增益的時候已經小於給定的閥指。

所以一棵決策樹的生成就是先選擇特徵,以哪個特徵作為優先分割條件,然後判斷子集合裡面是否還需要繼續分割。

決策樹與隨機森林


ID3和C4.5的區別在於切分隔樹的時候是採用信息增益率,如果採用信息增益率作為切割會傾向於選擇那些特徵值比較多的特徵。

決策樹與隨機森林


CART算法跟ID3和C4.5最大的改進是作了二元分割法,它規定只是二叉樹,在選擇特徵的時候起到的是差不多的,都能優先選擇到同一個特徵作為分割條件。我們如果生成了這棵樹,有的時候在測試集表現的效果會非常差,最大的可能是發生了過擬合,解決過擬合的方法有兩種:預剪枝(構建樹的過程中,如果把一個子集點分裂,產生的收益是負值或比較小,就把這種分割提前終止,但不能排除後續的收益增大,可能會導致數據欠擬合)和後剪枝。

以上三者的主要區別在於特徵分割的方式不同,還有對連續集和連續集的處理方式不同,以及構建樹的方式不同。

隨機森林

決策樹與隨機森林

採用多棵樹的方式。隨機體現在兩個方面:一方面在選取樣例的時候,從整個樣本集裡面隨機抽取樣本;另一方面,在選擇特徵的時候並不是採用所有的特徵,從特徵及裡面選擇一部分特徵來構造每一棵樹。

隨機森林OOB估計

在選取樣本的時候,針對每一棵樹來說,不在這棵樹的樣本就成為這棵樹的OOB樣本,相對於單個CART樹來講具有更強的泛化能力,因為隨機選取樣本和部分特徵的能力已經讓它避免產生過擬合的情況。

例子:整個數據集分成兩份:數據集+測試集

分割過程是從0—1的隨機數進行劃分,大於0.5 就作為預測集的樣本,小於就作為訓練集。

以上就是本次線上直播的主要內容,相信你對多輪對話系統有了一定的認識。想了解更多更詳細內容的小夥伴們,可以關注服務號:FMI飛馬網,點擊菜單欄飛馬直播,即可進行學習。


分享到:


相關文章: