你没看过的傻瓜统计学

你没看过的傻瓜统计学

文末领取课程

《应用统计学》

01 相关性比较??根据数据类型!!

数值数据与数值数据——相关系数

数值数据与分类数据——相关比

分类数据与分类数据——克莱姆相关系数——独立性检验(卡方检验)——画表格求卡方值,然后根据独立性检验,作出检验假设证明是否具有相关性。

02 数据有两大类

连续变量(正态或非正态)、分类变量(二分类或多分类)。

连续变量中,正态与非正态数据表示方法是不一样的。正态数据一般用均数“土”标准差(x±s) 方式表示,其数据95.45%处于x±s 范闱内;非正态数据用中位数和四分位间距表示;分类变量表示方法更直接,通常为频率与百分数。

03 比较单个结局和单个变量

最常见的情况就是比较两种处理的结果有何差异 。

如比较两组独立的结果,正态分布应选用t检验;连续非正态分布选用Mann-Whitney或Wilcoxon秩和检验;分类变量选用卡方检验,当数据量很小时,应用Fisher检验。

p为0.05的意义是:若不断重复检验,差异由偶然导致的概率为5%。

04 趋势检验

比较单个结局和多个变量,很多情况下,结局受多个变量影响,回归分析适用于这种情况。

其中包括线性(liner)回归,可应用于连续正态分布的结局,如血钾。二分类结局可应用逻辑(logistic)回归,其分析结果用比值比表示,即事件发生的比值与不发生比值的比值。比值比常被误解为相对风险。同样需要对不同的结局类型采用相应的回归分析。一个常犯的错误是将连续变量转为二分类,本应使用线性回归,最后使用了logistic回归 。

以上均是一种结局(单个或多个自变)情况,没有考虑时间或丢失数据的因素,不能用于生存分析。对于生存分析,应用Cox比例风险回归。计算得出风险比,表示死亡的相对风险 。

等级资料用spearman相关性分析 (见下表)

你没看过的傻瓜统计学
你没看过的傻瓜统计学

软件要求作者选择是否配对(Paired和Unpaired), 并决定选择参数检验还是非参数检验。所谓参数检验就是指配对t检验或独立样本t检验,而非参数检验则是指Mann­Whitney U检验或配对Wilcoxon检验。如果选择参数检验(默认两组数据均 呈正态分布),软件会让操作者选择方差是否齐。如果方差齐,软件会选择t检验,如果不齐,软件推荐Welch法。需要说明的一点是,如果两组数据均呈正态分布,但方差不齐,此时应采用校正t检验,目前有3种主要的校正t检验法:Cochran & Cox法、 Satterthwait法和Welch法。Graph Pad Prism仅支持Welch法。如果两组数据不呈正态分布,则应该选用非参数检验。非参数的两个选项分别是Mann-Whitney U检验和Kolmogorov-Smirnov检验。一般选择Mann­WhitneyU检验。

参数分析结果的解读与此类似,只不过多了个 " F test to compare varian ces" , 即方差是否齐 。一 般认为, p值 > 0.10才可以认为两组数据方差 相同(注意 :是大于 , 不是小于 !是0. 10 , 不是0.05 ! ) 。

你没看过的傻瓜统计学

05 如何判断数据是否成正态分布?

GraphPad Prism提供了3种检验数据是否呈正态分布的方法:D'Agootino-Pearson法,Kolmogorov-Smirnov法和Shapiro-Wilk法。针对同一种数据,3种方法的计算结果大同小异。虽然GraphPad Prism不推荐用。

Kolmogorov­Smirnov法,但根据笔者经验,在国际上发表论文时,多采用Kolmogorov­Smirnov法的结果,可能是因为当样本太小时,Shapiro-Wilk法和D'Agootino­Pearson法无法给出检验结果。当然,也可以3种方法都选择,综合判断数据是否呈正态分布。具体在Column statistics下拉菜单中normality and lognormality tests(正态或对数正态分布)。选择好统计方法之后点击 "OK", 就可以得到正态检验的结果。

需要特别说明的是:在正态检验中,一般认为p>0.10才表示数据呈正态分布(是大于,不是小于!是0.10, 不是0.05!)。

06 绘制生存曲线

进入上述界面后点击选中左侧 "Survival" 模式,之后点击 "Create" , 之后进入了GraphPad Prism的主界面。GraphPad Prism 主界面的第一个纵列(标志了 X 的纵列)是用来输入随访时间的,其余纵列则输入患者的结局.每一个纵列代表了 一个组。输入数据如下图:

你没看过的傻瓜统计学

图像自动生成。

你没看过的傻瓜统计学

双击图片进行颜色修改

07 t检验

你没看过的傻瓜统计学

t检验有三种类型:独立样本t检验、配对样本t检验和单样本t检验。若实验组和对照组未进行配对,在符合独立样本t检验使用条件的情况下,可采用独立样本t检验比较两组数据的差异是否具有统计学意义;若实验组和对照组进行配对,在符合配对样本t检验使用条件的情况下,则应该使用配对t检验。

独立样本t检验对数据的基本要求是:1.数据呈正态分布 2.总体方差相等。配对样本的t检验则要求两组数据的差值呈正态分布 。

数据是否符合正态分布?可以采用Kolmogorov-Smirnov检验或Shapiro­Wilk检验。在R中可以使用ks.test函数。

1. 若数据呈正态分布,若方差整齐,则建议作者采用独立样本t检验的结果;但方差不整齐,则可以采用近似t检验对数据进行分析。SPSS软件在进行t检验时,会自动计算方差齐性检验的结果,并同时告知t检验和近似t检验的统计学结果。

2. 大多数医学数据都不呈正态分布 ,如血脂、血糖、肝酶、肿瘤标志物等.因此不宜使用 t检验进行两组数据的比较 , 而应该采用非参数统计方法,如Mann-Whitney检验 。

若实验设计有多个组,即同一实验因素下有多个分组 , 则不宜反复采用t检验进行组间比较。而应该采用单因素方差分析或K.ruskal-Wallis H检验,先从总体上明确几组之间的差异是否有统计学意义,然后根据研究需要决定是否进行两组间的比较,采用何种方法进行比较。

08 卡方检验

主要用于对分类资料进行比较分析。

处理四格表数据是卡方检验最为常见的用途之一。其目的在于分析”构成比”或者”率”之间的差异是否具有统计学意义。

  • 对于四格表数据,使用卡方检验的条件:样本量>40、且最小理论频数应>5。

  • 对于某些小样本的、或者指标阳性率较低的研究,总样本量可能<40, 最小理论频数也可能<5, 此时应该采用Fisher确切概率法进行分析.

  • 对于等级资料,秩转换之后进行Mann-Whitney U检验。

  • 对于画表问题,不变的在左侧,变化的在上边,具体见下边表格的例子。

总结:分类资料用卡方,等级资料用秩和。

实际上,从理论上讲,若要分析四格表数据中的构成比或者率之间的差异是否有统计学意义, Fisher确切概率法的结果是最可靠的。若是使用软件对数据进行分析,不论样本量和最小理论频数,均可采用Fisher确切概率法。

卡方检验回答的问题仅仅是"构成比”或者"率”之间的差异是否具有统计学意义,而不能回答效应指标的强度高低问题。

对于等级资料,不是率和构成比的问题,而是分期等问题,所以处理此类数据的一般方法是将分期进行秩转换,然后以秩和检验(Mann­Whitney 检验)进行统计分析 。

End.

扫描海报上二维码,备注“统计学”

领取《应用统计学》课程!

零基础入职数据分析就业班

课程的形式主要是“直播+录播”

报名专享:课程项目作业+1v1班主任监督学习+爱数据学院学员专属网站+班级答疑群

课程结束后能熟练掌握SQL、Python、Excel、PPT等工具

适合人群:

1.转行(岗位相关,专业相关、对数据分析感兴趣)

2.从事数据分析工作,但是需要提升技能以及增加实战经验

3.应届毕业生入职数据分析


分享到:


相關文章: