12.20 醫學統計中流傳的“似乎正確”的錯誤,你聽說過幾個?


醫學統計中流傳的“似乎正確”的錯誤,你聽說過幾個?


這個題目聽起來似乎有點彆扭,什麼意思呢?就是說,有些話在醫學統計中流傳了很多年,不少醫學生甚至有的流行病學、衛生統計學的老師或學生也這麼說,但實際上,卻偏偏是錯誤的說法。本文主要列舉幾個:

(1)分類資料又稱計數資料

在比較早的版本中,這種說法存在。現在的很多醫學論文中,依然都這麼說。然而分類資料與計數資料並不是一回事。

其實他們的區別很容易,分類資料(categorical data)是類似於像性別、職業、血型等名義型,它們的值都是無實際意義的,只是個標識而已。例如性別的男和女分別用1和2標識,這裡你絕不能說2大於1。也就是說,在分類資料中,數值無所謂大小,只是個標誌,你可以用1和2標識,也可以用5和98標識,只不過實際分析中沒必要搞得那麼複雜,所以都儘量簡單地用1和2標識。

什麼是計數資料(count data),顧名思義是可以清點計數的。比較典型的如咳嗽次數、疼痛次數、轉移部位的個數等等。它們的值是有實際意義的,比如疼痛次數可能是1、2、3等,這裡就可以說2大於1,4大於3等,因為3次就是大於2次,沒什麼可說的。這裡的數值大小是起作用的。


如果從統計學角度來說,分類資料通常服從二項分佈或多項分佈,而計數資料通常服從Poisson分佈或負二項分佈。

現在還有不少文章在統計學方法中都提到“計數資料的比較採用卡方檢驗”,個人認為,嚴謹來說,應該是“分類資料的比較採用卡方檢驗”。

目前國內教材尚未嚴格區分這兩個概念。我也查了很多文獻和資料,很少有人清楚地闡述過這個問題,國內沒有,國外也很少,但有的國外論壇中能看出大家對這兩種資料的態度,肯定不是一回事,分析方法也不一樣。維基百科(英文)對categorical data和count data是分別定義的,不是一回事。大家感興趣的可以搜一下看看。

(2)分類資料和等級資料的關係研究分析應該用秩和檢驗

這句話欺騙了很多人,讓人覺得,凡是二維列聯表中有一個是等級資料的,一定要用秩和檢驗。然而真相如何呢?我們舉例說明一下:

例1,比較兩種儀器的療效有無差異,療效是等級資料,組別是二分類資料。

醫學統計中流傳的“似乎正確”的錯誤,你聽說過幾個?

例2,比較三個年齡組的滿意度有無差異,年齡組是等級資料,滿意與否是二分類資料。


醫學統計中流傳的“似乎正確”的錯誤,你聽說過幾個?

這兩個例子中,都是一個二分類資料,一個等級資料,那他們都要用秩和檢驗嗎?非也。

關鍵的問題在哪兒呢?一定要區分:分組變量和分析變量。分析變量也就是結局可以看做因變量;分組變量也就是組別,可以看做自變量。


只有分析變量是等級資料的時候,才用秩和檢驗。分組變量是不是等級,無關緊要,不影響方法選擇。記住:只看分析變量就行了。

例1中,分析變量(結局)是療效,作為等級資料,所以比較的時候需要採用秩和檢驗。例2中,分析變量(結局)是二分類資料,不是等級資料,所以不用秩和檢驗,用卡方檢驗即可。至於例2中的年齡是等級資料,並不影響卡方檢驗的使用。當然,分組變量是等級資料,你可以進一步做趨勢檢驗。

(3)樣本量大於30數據就服從正態分佈了

再說這個問題之前,我們先看一下下面這個圖形,這是1650人的數據分佈,大家看一下像是正態分佈嗎?

醫學統計中流傳的“似乎正確”的錯誤,你聽說過幾個?

很明顯,這怎麼也稱不上正態。所以問題是很明確的,關鍵是為什麼大家會這麼認為?

其實主要原因是:所謂的“30例以上服從正態分佈”這種說法,是指從任意的一個分佈中進行抽樣,如果每一次抽樣樣本的例數都大於30,那麼,每個樣本的統計量(如均數)其分佈接近正態。這也就是“中心極限定理”說的意思,但它不是說,一次抽樣樣本的數據大於30,這份數據就服從正態分佈。千萬不要搞混了,中心極限定理不是說原始數據的,而是說的抽樣分佈。具體解釋可參見前文。

(4)凡是率的比較都可以用卡方檢驗

這又是一個被誤解的典型錯誤說法,關鍵在於對“率”的定義。普通意義上的率,是指像二分類(如陽性和陰性、發病和不發病、有效和無效等)中的陽性率、發病率、有效率等。這類資料用卡方檢驗比較無可厚非。

然而還有一種率不能用卡方檢驗比較。比如變化率,假定有試驗組和對照組,每組的觀察對象都在第一個周測量了血糖值,第二週又測了一次,計算第二週相對第一週的變化率,這種率的計算方式通常是“(第二週-第一週)/第一週”,得到的也是“率”,然而這種率確是一個實實在在的連續資料,具有連續資料的一切特徵,這時候如果你要比較兩組的變化率有無差異,那就要按連續資料的方法,如t檢驗、秩和檢驗等。

有的人可能會有點糊塗,其實很好區分。典型的發病率、感染率等的“率”,是基於一群人只能計算出一個率,比如100人中感染40人,那100人的感染率就是40%。而作為連續資料的率,每個人都有一個率的值,比如,第一個人有一個變化率(如2.3%),第二個人也有一個變化率(如-0.6%)。

以前我曾見過這樣的文章,明明是變化率,但卻寫的是用卡方檢驗,我一直很好奇,這麼多的率,你是怎麼放到軟件裡的?不覺得軟件裡沒法放這些變量嗎?

(5)秩和檢驗效率遠不如t檢驗(或方差分析等),不得已而用之

有的人把秩和檢驗看做“兵者,不祥之器”,不到萬不得已不用。這也是不少人的一種偏見。我見過不少醫學工作者,一看到數據不服從正態分佈,立刻感覺整個天空都陰暗了。我有時會說,可以用秩和檢驗,然而他們的回答是,不是說秩和檢驗不好嗎?說實話,我一直不知道這些流言到底從何而來,源頭到底在哪兒?似乎它就一直就存在了。是因為教材編排的原因嗎?把它排在後面以至於不少人想當然就認為它是參數檢驗的備胎?還是其它原因?

秩和檢驗的效率並不是像很多人想象的那樣低。事實上,從很久以前到現在的統計學家都做過不少模擬驗證,即使數據符合正態分佈,秩和檢驗的效果也不比t檢驗、方差分析等這些參數檢驗查,模擬的結果提示,這種情況下,秩和檢驗的效率大約是參數檢驗的95%。而一旦數據偏離正態分佈,秩和檢驗的效率將遠遠優於參數檢驗。

暫時先想到了這幾個問題,如果後面還有想到的,再令文撰寫。希望本文能都對各位朋友有一定的啟發和幫助。

其實在醫學領域中(典型代表就是醫學論文),存在不少典型的低級錯誤,絕大多數都是可以通過解釋清楚而修正的。也許是因為我個人一直在醫院而不是高校,每天都接觸大量的實際數據和案例,所以更容易關心這些基本錯誤,因為這是最容易改正的。對於臨床醫生而言,想一下子學會廣義可加模型有點難度,但是如果說弄清楚分組變量和分析變量,這還是可以做到的。

所以這幾年我基本上一直在各種場合不遺餘力地推廣這些基礎概念,雖然我也不知道效果如何,但只要能夠對一部分人有所幫助,讓一部分能夠摒除一些錯誤觀點和概念,那就足夠了。可能有的人會覺得講這些有點low,但統計學畢竟是應用學科,醫學統計學如果離開了醫學,純研究高大上的理論,我想這也不是醫學統計學的初衷,畢竟醫學統計學就是要解決醫學問題的。

而且我發現一個問題:大多數的統計學老師都在高校,醫院中的統計學家非常少(儘管不少醫院有臨床流行病學科,但大都以流行病學為主)。所以作為一名醫院中的統計學工作者,數據挖掘當然要做,但基礎統計學的推廣工作也一定要做,畢竟做的人真的太少了。

醫學統計中流傳的“似乎正確”的錯誤,你聽說過幾個?


分享到:


相關文章: