朴素贝叶斯
该算法在机器学习的领域文本分类效果是很好的。
例子:
早雾晴,晚雾阴: 这就是通过概率来说的,这里明显可以看到早上是雾天和今天一天是晴天,这两者是存在先后的概率关系的,或者说早上是雾天的条件下今天一天是晴天的概率很大。
1、贝叶斯公式
概率和条件概率、联合概率:
条件概率: A条件下B发生的概率(红色的部分是P(AB)):
全概率公式:
红色部分表示P(A1B),剩下的颜色也可以表示为P(A2B)、P(A3B),那么B的发生概率就等于三者之和了,又因为P(B|A)=P(AB)/P(A),就可以得到全概率公式了。 贝叶斯公式(逆概公式):
先验概率推后验概率。 贝叶斯在机器学习中的使用:
朴素贝叶斯的独立假设才是在机器学习中被广泛使用的算法:
1:在机器学习中,朴素贝叶斯分类器是一系列以假设特征之间强独立(朴素)下运用的贝叶斯定理为基础的简单概率分类器。 2:高度可扩展的,求解过程知识花费线性时间。 3:目前来说,朴素贝叶斯在文本分类的领域运用比较多,无论是sklearn还是Spark Mlib中,都只定制化实现文本分类领域的算法。 那么公式会变成:
<code>P(Xi|Y)=P(Y)*P(X1|Y)*P(X2|Y)....
/<code>
因为X1、X2之间是强独立的,所以说本来的全概率公式作为分母就都是1了。(这种强独立性,到底还是得看具体案例,不是每种情况都是这种理想假设的强独立)
閱讀更多 小白學習日記yang 的文章