樸素貝葉斯
該算法在機器學習的領域文本分類效果是很好的。
例子:
早霧晴,晚霧陰: 這就是通過概率來說的,這裡明顯可以看到早上是霧天和今天一天是晴天,這兩者是存在先後的概率關係的,或者說早上是霧天的條件下今天一天是晴天的概率很大。
1、貝葉斯公式
概率和條件概率、聯合概率:
條件概率: A條件下B發生的概率(紅色的部分是P(AB)):
全概率公式:
紅色部分表示P(A1B),剩下的顏色也可以表示為P(A2B)、P(A3B),那麼B的發生概率就等於三者之和了,又因為P(B|A)=P(AB)/P(A),就可以得到全概率公式了。 貝葉斯公式(逆概公式):
先驗概率推後驗概率。 貝葉斯在機器學習中的使用:
樸素貝葉斯的獨立假設才是在機器學習中被廣泛使用的算法:
1:在機器學習中,樸素貝葉斯分類器是一系列以假設特徵之間強獨立(樸素)下運用的貝葉斯定理為基礎的簡單概率分類器。 2:高度可擴展的,求解過程知識花費線性時間。 3:目前來說,樸素貝葉斯在文本分類的領域運用比較多,無論是sklearn還是Spark Mlib中,都只定制化實現文本分類領域的算法。 那麼公式會變成:
<code>P(Xi|Y)=P(Y)*P(X1|Y)*P(X2|Y)....
/<code>
因為X1、X2之間是強獨立的,所以說本來的全概率公式作為分母就都是1了。(這種強獨立性,到底還是得看具體案例,不是每種情況都是這種理想假設的強獨立)