揭示貝葉斯公式應用中的認識誤區

揭示貝葉斯公式應用中的認識誤區

假定有一組完備且互斥的事件A1,…,An , 它們發生的概率具有初始的假定值P(Ai),…,P(An), 稱為先驗概率。

在正概率隨機事件B發生(被觀察到)的條件下(P(B)>0), 這些事件出現的條件概率P(Ai| B),( i = 1,…,n ),稱為驗後概率。

應用條件概率公式和全概率公式,我們得到下面的貝葉斯公式(貝葉斯定理)

揭示貝葉斯公式應用中的認識誤區

(i = 1,…, n)

驗後概率P(A i| B)被認為是獲得新的信息(事件B)後,對先驗概率P(A)的修正。

揭示貝葉斯公式應用中的認識誤區

所謂“修正”的說法,其實是不嚴格的,或者說有條件的。

揭示貝葉斯公式應用中的認識誤區

準確地說,條件概率P(A i| B)只是從事件B的角度去觀察事件A1,…,An,打個比方,也可能是管窺蠡測,坐井觀天。

為了下面分析的簡明,我們討論兩組完備且互斥的事件A與A‾,及B與B‾,有下面的條件概率公式和全概率公式:

P(A|B)= P(A)P(B|A)/ P(B)

P(A‾|B)= P(A‾)P(B|A‾)/ P(B)

以及

P(B)= P(A)P(B|A)+ P(A‾)P(B|A‾)

用P(B)的公式代入前面兩個公式,就分別得到兩個貝葉斯公式。

現在分析下面的應用背景。它蘊含著A是事件的原因,B是事件的結果,從結果來推測原因這樣一種相互關係。

假定某社區的全部人口為樣本空間,社區出現某種疾病。從社區中隨機抽取一人,得這種病為事件A,未得病為事件A‾,根據統計數據估計,得病的概率為p = P(A),未得病的概率為P(A‾)= 1 - p 記為q。

有一種檢測疾病的試劑,檢測結果呈陽性為事件B,呈陰性為事件B‾。

經過對這種試劑多次檢驗發現,這種試劑對於已得病的人呈陽性的概率(即檢測到得病的準確率)為P(B|A)= α;對於未得病的人,呈陽性的概率(即誤診得病(假陽性)的概率為P(B|A‾)= β。

揭示貝葉斯公式應用中的認識誤區

在上面的基本假定條件下,我們應用貝葉斯公式可以得出哪些合理的結論,又可能得出哪些似是而非、實則錯誤的結論呢?

揭示貝葉斯公式應用中的認識誤區

貝葉斯公式在一些領域的應用近年來成為一個熱門的課題。

然而,就像在概率統計其他領域以及貝葉斯公式發展歷史中,也出現由於混淆(誤用)概念,導致不正確的結論。

本文希望通過分析較廣泛傳播的具體例子(引自近年出版的專業著作,或科普文章),釐清重要的概念,並引起這個領域的學者及愛好者的重視或進一步討論。

揭示貝葉斯公式應用中的認識誤區

第一個例子:“設從某個城市的人口中隨機選取一個人作結核病皮膚試驗(“簡稱為皮試”),而試驗的結果是陽性,問給出皮試陽性結果(記為事件B)這個人正是結核病患者(記為事件A)的概率是多少?

它假定已從醫療機構得到的信息為:P(A)= 0.01,P(B|A)= 0.98,及P(B|A‾)= 0.05。應用貝葉斯定理計算的結果是P(A|B) = 0.165。

結論是:這個皮試後呈陽性的人確是結核病患者的概率從0.01上升到0.165。

揭示貝葉斯公式應用中的認識誤區

第二個例子:“已知某種疾病的發病率是0.001,即1000人中會有1個人得病。現有一種試劑可以檢驗患者是否得病,它的準確率是0.99,即在患者確實得病的情況下,它有99%的可能呈現陽性。它的誤報率是5%,即在患者沒有得病的情況下,它有5%的可能呈現陽性。現有一個病人的檢驗結果為陽性,請問他確實得病的可能性有多大?

應用貝葉斯定理計算的結果是P(A|B) = 0.019。結論是:這個檢驗結果為陽性的人得病的概率從0.001上升到0.019。

( 本文在引用時對其中關鍵的語句用粗體表示。這兩個例子是同一個類型。)

揭示貝葉斯公式應用中的認識誤區

難道這個令人驚訝的結論是貝葉斯公式的可靠結論嗎?

在應用條件概率時容易出現比較隱蔽的錯誤,即隨機事件A和隨機事件B的界限以及它們之間的關係被混淆。

如果我們的問題是:一個隨機抽取的人在試劑檢驗呈陽性的條件下得病的概率是多少?

那麼,事件A是“在討論的人群總體中隨機抽取的一人得病”,事件B應該是“這個被隨機抽取到的人試劑檢驗呈陽性”,在這樣的語境下,文章中所得結果及解釋方為正確。

可是,文章提出的問題是:“現有一個病人的檢驗結果為陽性,請問他確實得病的可能性有多大?”,情況就完全不一樣了。

事件b是“某甲的檢驗結果為陽性”,這是一次檢驗結果的事件,由於檢驗結果帶有隨機性,所以事件b仍然是隨機事件。

事件a是“某甲得病”。如果這次陽性檢驗結果不正確(假陽性),某甲沒有得病,按題設,這個概率為0.05;否則,陽性檢驗結果正確,某甲得病了,這個概率為1 - 0.05 = 0.95。也就是說,某甲確實得病的概率為0.95。

揭示貝葉斯公式應用中的認識誤區

類似地,我們可以討論兩類“假陰性”問題。

一個是:一個隨機抽取的人在試劑檢驗呈陰性的條件下得病的概率是多少?

另一個是“現有一個病人的檢驗結果為陰性,請問他確實得病的可能性有多大?

一種檢測試劑如果對於發現疾病的準確性很高,有可能對於未病者的誤診率稍高,出現“假陽性”;一種檢測試劑如果對於發現疾病的準確性略低,但對於未病者的誤診率很低,就會出現“假陰性”。

應用貝葉斯方法應該概念清晰,避免掉入陷阱。

它應用的前提是,對於樣本空間中隨機抽取的樣本,以及這些隨機樣本屬於事件B的條件(子範疇,子空間)下,其他隨機事件A出現的條件概率。

它只是對於局部的子空間整體成立的公式,並不意味著應用到一個具體的或特定的樣本時,一定可以適用同一個公式。

正如我們上面著重指出的,這是兩種不同類型的問題。

目前,在介紹貝葉斯公式應用的例子中常常出現的問題,恰恰是在已經獲得有關個體呈現陽性時的誤診概率的信息後,仍然套用針對樣本空間中隨機樣本成立的貝葉斯公式,得出不恰當的結論。

揭示貝葉斯公式應用中的認識誤區

揭示貝葉斯公式應用中的認識誤區

關於“假陽性”的進一步說明

“假陽性”現象說明,判別小概率事件出現特有的困難。

在上面的例子中,如果我們記全體人員為W集合,得某種疾病的人員為A集合,檢驗呈陽性的人員為B集合。

儘管對每一個被檢驗的人員若他呈陽性(屬於B集合),可以以相當大的概率(比如0.95)判斷他得病(屬於A集合)(即不得病的誤判概率為0.05),但是,由於出現A的概率非常小(比如0.001),在全體不得病人員的集合W-A中,有百分之五的人被誤判(即呈陽性但並未得病),其數量以較大比例超過只佔全體人員千分之一的得病人員總數。

這就是說,對全體人員而言,如果每個人都去檢驗,檢驗結果呈陽性的人員中,只有小部分的人真正得了病,換言之,從總體而言,呈陽性的人群真正得病的概率並不高

,很多人雖然呈陽性而沒有得病,屬於“假陽性”!

這種對抽樣個體與對總體下的結論相左的情況似乎是一個悖論,然而,這的確是一個合理且經得起檢驗的結果。

應用數學與計算機應用高級工程師,編審;

1957一1963北京大學數學力學系數學專業畢業;

1963一1967中國科學院計算技術研究所概率統計計算專業研究生畢業;

長期從事數學應用研究與計算機應用軟件開發工作;

發表論文十餘篇,編著出版《隨機模型與計算機模擬》一書,譯書若干種。

本文系網易新聞·網易號“各有態度”特色內容

本文由超級數學建模社區“靈魂寫手”提供

分享、轉發請隨意

------這裡是數學思維的聚集地------

揭示貝葉斯公式應用中的認識誤區

「徵稿啟事」


分享到:


相關文章: