點擊上方關注,All in AI中國
你瞭解隨機森林算法嗎?你對隨機森林算法瞭解到了怎樣的一個程度?如果你不甚瞭解或者某一地方存有疑惑,那麼這篇文章你一定不能錯過。
本文分為六個部分:
- 什麼是隨機森林算法?
- 隨機森林算法在生活中的具體應用
- 隨機森林算法是如何工作的?
- 隨機森林算法的科學性
- 隨機森林一些應用方面
- 隨森林算法的一些利弊
什麼是隨機森林算法?
隨機森林算法是用於分類和迴歸問題的常用算法。在機器學習中,隨機森林是一個包含多個決策樹的分類器, 並且其輸出的類別是由個別樹輸出的類別的眾數而決定的。
假設一個訓練集為[A,B,C,D],對應的標籤是[R1,R2,R3,R4]。
隨機森林創建三個決策樹的子集輸入,例如
樹1=[A,B,C]
樹2=[A,B,D]
樹3=[B,C,D]
最後,基於每個決策樹節點的多數票進行預測。
在隨機Forrest算法中,為了建立多個決策樹,我們常使用的算法有:信息增益、熵和增益。
一些生活中的具體應用
假設我們想買一隻智能手錶,我們會像身邊的朋友徵求意見。他會問你,你喜歡哪種手錶,並問你可以承受的價位。基於以上的問題,我們的朋友會做出恰當的推薦。而中間的這個過程就是對決策樹(隨機森林算法)的一種具體的、生動的應用。
我們一般會想徵求更多朋友的意見,以便獲得更加全面的參考。
你應該知道以下要點:
在上面的實例中,朋友根據你的要求給出了他們的答案。你在眾多的答案中選擇了一個最符合你心意的,並買了那款智能手錶。而這一系列的步驟,就是對隨機森林算法的具體應用。
隨機森林算法是如何工作的?
我們的模型中會有很多棵樹,每一棵樹都代表著不同的分裂。
隨機森林算法有兩個階段,一個是隨機森林生成階段,另一個階段是從第一階段創建的隨機森林分類器中進行預測。
訓練步驟:
在決策樹中進行"多數票"表決。
偽碼:
每棵樹的生長規劃如下:
- 假設訓練集中的樣本數為N,我們現在從這N個樣本中進行隨機抽取。如果樣本是輸入變量,那麼替換後的樣本將作為樹生長的訓練集。
- 如果存在M個輸入變量或特徵,並指定一個數字m
- 每棵樹都儘可能地生長,沒有修剪。
通過對n棵樹的預測來得出新的預測數據。
Scikit隨機森林
第一部分:數據預處理
第二部分:隨機森林分類器模型的建立
第三部分:預測和精度結果
隨機森林的應用
銀行業:
隨機森林算法在銀行方面的主要應用是用來創立用戶的誠信檔案。方便誠信用戶進行大金額貸款並對失信用戶做出一系列制裁。
醫學:
隨機森林算法既可以識別藥物成分的正確組合,也可以通過分析病人的病歷來識別病人可能患哪種疾病。
股票市場:
隨機森林算法可以用來預測股票的漲跌趨勢。
電子商務:
隨機森林算法可以根據相似客戶的購買經歷預測某客戶是否喜歡該產品。
隨機森林算法的利弊
優點:
- 隨機森林也可用於分類和迴歸問題。
- 處理缺失值並保持丟失數據的準確性。
缺點:
- 有利於分類,但不利於迴歸,因為不能預測超出範圍的數據。
- 你很難控制模型的損失。
閱讀更多 AI中國 的文章