「大數據統計」貝葉斯分類方法

貝葉斯分類方法是非常成熟的統計學分類方法,它主要用來預測類成員間關係的可能性。比如通過一個給定觀察值的相關屬性來判斷其屬於一個特定類別的概率。


「大數據統計」貝葉斯分類方法


貝葉斯分類方法是基於貝葉斯定理的,已經有研究表明,樸素貝葉斯分類方法作為一種簡單貝葉斯分類算法甚至可以跟決策樹和神經網絡算法相媲美。

貝葉斯定理公式如下:


「大數據統計」貝葉斯分類方法


其中X表示n個屬性的測量描述;H為某種假設,比如假設某觀察值X屬於某個特定的類別C;對於分類問題,希望確定P(H|X),即能通過給定的X的測量描述,來得到H成立的概率,也就是給出X的屬性值,計算出該觀察值屬於類別C的概率。

因為P(H|X)是後驗概率,所以又稱其為在條件X下,H的後驗概率。

舉例來說,假設數據屬性僅限於用教育背景和收入來描述顧客,而X是以為碩士學歷,收入10萬元的顧客。假定H表示假設我們的顧客將購買蘋果手機,則P(H|X)表示當我們知道顧客的教育背景和收入情況後,該顧客將購買蘋果手機的概率;相反,P(X|H)則表示如果已知顧客將購買蘋果手機,則該顧客是碩士學歷並且收入10萬元的概率;而P(X)則是X的先驗概率,表示顧客中的某個人屬於碩士學歷且收入10萬元的概率;P(H)也是先驗概率,只不過是任意給定顧客將購買蘋果手機的概率,而不會去管他們的教育背景和收入情況。

從上面的介紹可見,相比於先驗概率P(H),後驗概率P(H|X)基於了更多的信息(比如顧客的信息屬性),而P(H)是獨立於X的。

貝葉斯定理是樸素貝葉斯分類法的基礎,如果給定數據集裡有M個分類類別,通過樸素貝葉斯分類法,可以預測給定觀察值是否屬於具有最高後驗概率的特定類別,也就是說,樸素貝葉斯分類方法預測X屬於類別C時,表示當且僅當:


「大數據統計」貝葉斯分類方法


此時如果最大化P(Ci|X),其P(Ci|X)最大的類Ci被稱為最大後驗假設,

根據貝葉斯定理:


「大數據統計」貝葉斯分類方法


可知,由於P(X)對於所有的類別是均等的,因此只需要P(X|Ci)P(Ci)取最大即可。

為了預測一個未知樣本X的類別,可對每個類別Ci估算相應的P(X|Ci)P(Ci)。樣本X歸屬於類別Ci,當且僅當P(Ci|X)>P(Cj|X)1≤j≤m,j≠i貝葉斯分類方法在數據化運營實踐中主要用於分類問題的歸類等應用場景。


分享到:


相關文章: