樸素葉貝斯算法科技頭條網

樸素葉貝斯算法

2019-11-22 14:16:58 sandag

樸素葉貝斯算法

概率基礎

概率：一件事情發生的可能性
聯合概率：包含多個條件，且所有條件同時成立的概率。P(A,B)
P(A, B) = P(A)P(B)
條件概率：事件A在另外一個事件B已經發生條件下發生的概率。 P(A|B)
P(A1,A2 | B) = P(A1 | B) * P(A2 | B)
注意：此條件概率的成立，是由於A1, A2相互獨立的結果

樸素貝葉斯

樸素：特徵獨立，常用文檔分類在給定詞比例的基礎上，求各類型文檔的比例
貝葉斯公式：（多個條件下一個結果）

公式分為3個部分：P(C): 每個文檔類別的概率（某類文檔數/總文檔數）P(W | C)：給定類別下特徵（被預測文檔中出現的詞）的概率：計算方法：P(F1|C） = Ni/NNi : F1詞在C類別文檔所有文檔出現的次數N: 所屬C類別下的文檔所有詞出現的次數和P(F1,F2,F3) : 預測文檔中每個詞的概率

文檔分類：給定一個文檔的條件下，求文檔所屬於科技、娛樂等類別的概率。哪個類別的概率大，則歸為某個類別。

文檔：詞1，詞2 ，詞3 （詞出現的數量的情況下，判斷類別）P(科技|詞1，詞2，詞3） = P(f1,f2,f3 | 科技）*P(科技）/P(W)P(娛樂|詞1，詞2，詞3） = P(f1,f2,f3 | 娛樂）*P(娛樂）/P(W)
由於是概率大小，則P(W)可以同時約去

文檔分類實例

特徵科技（30篇）娛樂（60篇）彙總（90篇）商場95160影院85664支付寶201535雲計算63063彙總（求和）100121221

現有一篇預測文檔，出現了影院， 支付寶 ， 雲計算 ，計算屬於科技、娛樂的概率。

科技： P(科技 |影院，支付寶，雲計算）= P(影院，支付寶，雲計算| 科技）* P(科技）= P(影院|科技）P(支付寶|科技） P(雲計算|科技）P(科技）= （8/100）* （20/100）* （63/100）*（30/90） = 0.00456109
娛樂：P(娛樂 |影院，支付寶，雲計算）= （56/121）（15/121）（0/121）（60/90）= 0

拉普拉斯平滑

目的：避免單個特徵詞出現次數為0 ，導致最終的計算結果為0 。
原因：其他的詞在這個類型文檔中出現過，則還是有可能屬於這個文檔。
P(F1|C) = (Ni +a) /(N+am)a為指定的係數，一般取1m為訓練文檔中統計出的特徵詞的個數（上述例子中為4）

sklearn樸素貝葉斯API

sklearn.naive_bayes.MultinomialNB (alpha = 1.0)

樸素貝葉斯算法案例（sklearn 20類新聞分類）

案例流程

加載數據，進行分割
生成文章特徵詞
樸素貝葉斯estimator進行預估

算法總結

訓練集誤差大，結果肯定不好
不需要調參
優點：發源於古典數學理論，有穩定的分類效率對缺失數據不太敏感，算法也比較簡單，常用於文本分類分類準確率高，速度快
缺點：由於使用樣本獨立性假設，對樣本屬性有關聯時效果不好

分類模型評估

常見評估方法

estimator.score() - 準確率，預測結果正確的百分比
精確率（precision) - 預測結果為正例樣本中真實為正例的比例 （查的準）
召回率（recall) - 真實為正例的樣本中預測結果為正例的比例
（查的全）
F1-score - 反映了模型的穩定性

混淆矩陣

定義：在分類任務中，預測結果（Predicted condition) 與正確標記（True condition)之間存在四種不同的組合，構成混淆矩陣。

分類評估API

sklearn.metrics.classification_report(y_true, y_pred, target_names=None)

y_true: 真實目標值
y_pred: 估計器預測目標值
target_names: 目標類別名稱
return: 每個類別精確率和召回率

案例代碼

from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import classification_report


def naivebayes():
 """
 樸素貝葉斯進行文本分類
 :return: None 

 """
 news = fetch_20newsgroups(subset='all')
 # 進行數據分割
 x_train, x_test, y_train, y_test = train_test_split(news.data, news.target_names, test_size=0.25 )

 # 對數據集進行特徵抽取
 tf = TfidfVectorizer()

 # 以訓練集當中的詞的列表進行每篇文章重要性統計
 x_train = tf.fit_transform(x_train)
 print(tf.get_feature_names())
 x_test = tf.transform(x_test)

 # 進行樸素貝葉斯算法的計算
 mlt = MultinomialNB(alpha=1.0)
 mlt.fit(x_train, y_train)
 print(x_train)
 y_predict = mlt.predict(x_test)

 print("預測的文章類別為：", y_predict)
 score = mlt.score(x_test, y_test)
 print("分類準確率為：", score)

 print("每個類別的精確率和召回率：", classification_report
 (y_test,y_predict,target_names=news.target_names))
 return None


if __name__ == '__main__':
 naivebayes()