你沒看過的傻瓜統計學

你沒看過的傻瓜統計學

文末領取課程

《應用統計學》

01 相關性比較??根據數據類型!!

數值數據與數值數據——相關係數

數值數據與分類數據——相關比

分類數據與分類數據——克萊姆相關係數——獨立性檢驗(卡方檢驗)——畫表格求卡方值,然後根據獨立性檢驗,作出檢驗假設證明是否具有相關性。

02 數據有兩大類

連續變量(正態或非正態)、分類變量(二分類或多分類)。

連續變量中,正態與非正態數據表示方法是不一樣的。正態數據一般用均數“土”標準差(x±s) 方式表示,其數據95.45%處於x±s 範闈內;非正態數據用中位數和四分位間距表示;分類變量表示方法更直接,通常為頻率與百分數。

03 比較單個結局和單個變量

最常見的情況就是比較兩種處理的結果有何差異 。

如比較兩組獨立的結果,正態分佈應選用t檢驗;連續非正態分佈選用Mann-Whitney或Wilcoxon秩和檢驗;分類變量選用卡方檢驗,當數據量很小時,應用Fisher檢驗。

p為0.05的意義是:若不斷重複檢驗,差異由偶然導致的概率為5%。

04 趨勢檢驗

比較單個結局和多個變量,很多情況下,結局受多個變量影響,迴歸分析適用於這種情況。

其中包括線性(liner)迴歸,可應用於連續正態分佈的結局,如血鉀。二分類結局可應用邏輯(logistic)迴歸,其分析結果用比值比表示,即事件發生的比值與不發生比值的比值。比值比常被誤解為相對風險。同樣需要對不同的結局類型採用相應的迴歸分析。一個常犯的錯誤是將連續變量轉為二分類,本應使用線性迴歸,最後使用了logistic迴歸 。

以上均是一種結局(單個或多個自變)情況,沒有考慮時間或丟失數據的因素,不能用於生存分析。對於生存分析,應用Cox比例風險迴歸。計算得出風險比,表示死亡的相對風險 。

等級資料用spearman相關性分析 (見下表)

你没看过的傻瓜统计学
你没看过的傻瓜统计学

軟件要求作者選擇是否配對(Paired和Unpaired), 並決定選擇參數檢驗還是非參數檢驗。所謂參數檢驗就是指配對t檢驗或獨立樣本t檢驗,而非參數檢驗則是指Mann­Whitney U檢驗或配對Wilcoxon檢驗。如果選擇參數檢驗(默認兩組數據均 呈正態分佈),軟件會讓操作者選擇方差是否齊。如果方差齊,軟件會選擇t檢驗,如果不齊,軟件推薦Welch法。需要說明的一點是,如果兩組數據均呈正態分佈,但方差不齊,此時應採用校正t檢驗,目前有3種主要的校正t檢驗法:Cochran & Cox法、 Satterthwait法和Welch法。Graph Pad Prism僅支持Welch法。如果兩組數據不呈正態分佈,則應該選用非參數檢驗。非參數的兩個選項分別是Mann-Whitney U檢驗和Kolmogorov-Smirnov檢驗。一般選擇Mann­WhitneyU檢驗。

參數分析結果的解讀與此類似,只不過多了個 " F test to compare varian ces" , 即方差是否齊 。一 般認為, p值 > 0.10才可以認為兩組數據方差 相同(注意 :是大於 , 不是小於 !是0. 10 , 不是0.05 ! ) 。

你没看过的傻瓜统计学

05 如何判斷數據是否成正態分佈?

GraphPad Prism提供了3種檢驗數據是否呈正態分佈的方法:D'Agootino-Pearson法,Kolmogorov-Smirnov法和Shapiro-Wilk法。針對同一種數據,3種方法的計算結果大同小異。雖然GraphPad Prism不推薦用。

Kolmogorov­Smirnov法,但根據筆者經驗,在國際上發表論文時,多采用Kolmogorov­Smirnov法的結果,可能是因為當樣本太小時,Shapiro-Wilk法和D'Agootino­Pearson法無法給出檢驗結果。當然,也可以3種方法都選擇,綜合判斷數據是否呈正態分佈。具體在Column statistics下拉菜單中normality and lognormality tests(正態或對數正態分佈)。選擇好統計方法之後點擊 "OK", 就可以得到正態檢驗的結果。

需要特別說明的是:在正態檢驗中,一般認為p>0.10才表示數據呈正態分佈(是大於,不是小於!是0.10, 不是0.05!)。

06 繪製生存曲線

進入上述界面後點擊選中左側 "Survival" 模式,之後點擊 "Create" , 之後進入了GraphPad Prism的主界面。GraphPad Prism 主界面的第一個縱列(標誌了 X 的縱列)是用來輸入隨訪時間的,其餘縱列則輸入患者的結局.每一個縱列代表了 一個組。輸入數據如下圖:

你没看过的傻瓜统计学

圖像自動生成。

你没看过的傻瓜统计学

雙擊圖片進行顏色修改

07 t檢驗

你没看过的傻瓜统计学

t檢驗有三種類型:獨立樣本t檢驗、配對樣本t檢驗和單樣本t檢驗。若實驗組和對照組未進行配對,在符合獨立樣本t檢驗使用條件的情況下,可採用獨立樣本t檢驗比較兩組數據的差異是否具有統計學意義;若實驗組和對照組進行配對,在符合配對樣本t檢驗使用條件的情況下,則應該使用配對t檢驗。

獨立樣本t檢驗對數據的基本要求是:1.數據呈正態分佈 2.總體方差相等。配對樣本的t檢驗則要求兩組數據的差值呈正態分佈 。

數據是否符合正態分佈?可以採用Kolmogorov-Smirnov檢驗或Shapiro­Wilk檢驗。在R中可以使用ks.test函數。

1. 若數據呈正態分佈,若方差整齊,則建議作者採用獨立樣本t檢驗的結果;但方差不整齊,則可以採用近似t檢驗對數據進行分析。SPSS軟件在進行t檢驗時,會自動計算方差齊性檢驗的結果,並同時告知t檢驗和近似t檢驗的統計學結果。

2. 大多數醫學數據都不呈正態分佈 ,如血脂、血糖、肝酶、腫瘤標誌物等.因此不宜使用 t檢驗進行兩組數據的比較 , 而應該採用非參數統計方法,如Mann-Whitney檢驗 。

若實驗設計有多個組,即同一實驗因素下有多個分組 , 則不宜反覆採用t檢驗進行組間比較。而應該採用單因素方差分析或K.ruskal-Wallis H檢驗,先從總體上明確幾組之間的差異是否有統計學意義,然後根據研究需要決定是否進行兩組間的比較,採用何種方法進行比較。

08 卡方檢驗

主要用於對分類資料進行比較分析。

處理四格表數據是卡方檢驗最為常見的用途之一。其目的在於分析”構成比”或者”率”之間的差異是否具有統計學意義。

  • 對於四格表數據,使用卡方檢驗的條件:樣本量>40、且最小理論頻數應>5。

  • 對於某些小樣本的、或者指標陽性率較低的研究,總樣本量可能<40, 最小理論頻數也可能<5, 此時應該採用Fisher確切概率法進行分析.

  • 對於等級資料,秩轉換之後進行Mann-Whitney U檢驗。

  • 對於畫表問題,不變的在左側,變化的在上邊,具體見下邊表格的例子。

總結:分類資料用卡方,等級資料用秩和。

實際上,從理論上講,若要分析四格表數據中的構成比或者率之間的差異是否有統計學意義, Fisher確切概率法的結果是最可靠的。若是使用軟件對數據進行分析,不論樣本量和最小理論頻數,均可採用Fisher確切概率法。

卡方檢驗回答的問題僅僅是"構成比”或者"率”之間的差異是否具有統計學意義,而不能回答效應指標的強度高低問題。

對於等級資料,不是率和構成比的問題,而是分期等問題,所以處理此類數據的一般方法是將分期進行秩轉換,然後以秩和檢驗(Mann­Whitney 檢驗)進行統計分析 。

End.

掃描海報上二維碼,備註“統計學”

領取《應用統計學》課程!

零基礎入職數據分析就業班

課程的形式主要是“直播+錄播”

報名專享:課程項目作業+1v1班主任監督學習+愛數據學院學員專屬網站+班級答疑群

課程結束後能熟練掌握SQL、Python、Excel、PPT等工具

適合人群:

1.轉行(崗位相關,專業相關、對數據分析感興趣)

2.從事數據分析工作,但是需要提升技能以及增加實戰經驗

3.應屆畢業生入職數據分析


分享到:


相關文章: