数据统计的理解和运用(四)列联表之卡方检验

前面几期我们介绍了参数检验,t检验和方差分析:两组定量资料的分析思路之t检验,多组样本比较之方差分析。

今天我们来介绍非参数检验——迷人的卡方检验(Chi-square test/Chi-Square Goodness-of-Fit Test)。

卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。

卡方检验是以 χ2 分布为基础的一种常用假设检验方法,它的假设检验为:

H0:观察频数与期望频数没有差别。H1:观察频数与期望频数有差别。

卡方检验的基本思想是:首先假设 H0 成立,基于此前提计算出 χ2 值,它表示观察值与理论值之间的偏离程度。根据 χ2 分布及自由度可以确定在H0 假设成立的情况下获得当前统计量及更极端情况的概率P。

如果 P 值很小,说明观察值与理论值偏离程度太大,应当拒绝无效假设,表示比较资料之间有显著差异;否则就不能拒绝无效假设,尚不能认为样本所代表的实际情况和理论假设有差别。

适用于四格表应用条件:

两个独立样本比较可以分以下3种情况:(1) 所有的理论数 T≥5 并且总样本量 n≥40,用 Pearson 卡方进行检验。(2) 如果理论数 T<5 但 T≥1,并且 n≥40,用连续性校正的卡方进行检验。(3) 如果有理论数 T<1 或 n<40,则用 Fisher’s 检验。

R×C表卡方检验应用条件:

(1) R×C表中理论数小于5的格子不能超过1/5;(2) 不能有小于1的理论数;不满足 (1) 或 (2) 时,均采用 Fisher’s 检验。如果实验中有不符合R×C表的卡方检验,可以通过增加样本数、列合并来实现。

列联表的资料大致分为以下 10 类:

  1. 成组设计横断面研究四格表资料统计分析
  2. 成组设计队列研究四格表资料统计分析
  3. 成组设计病例对照研究四格表资料统计分析
  4. 成组设计结果变量为多值有序变量的2XC表资料统计分析
  5. 成组设计结果变量为多值名义变量的2XC表资料统计分析
  6. 单因素多水平设计有序原因变量RX2表资料统计分析
  7. 单因素多水平设计双向无序RXC表资料统计分析
  8. 单因素多水平设计无序原因变量RX2表资料统计分析
  9. 单因素多水平设计有序结果变量RXC表资料统计分析
  10. 单因素多水平设计双向有序RXC表资料统计分析

由于篇幅限制,因此本次仅讲解两条(感兴趣的读者可以先关注我们,我们后续推出精彩讲解),也是常见的两类:

· 成组设计横断面研究四格表资料统计分析

· 单因素多水平设计双向无序RXC表资料统计分析

例1. 某研究随机抽取了某大学四年级学生124人,调查大学英语六级通过情况,结果见下表。问该大学男生和女生英语六级通过率有无差别?

临度科研 | 数据统计的理解和运用(四)列联表之卡方检验

表1: 大学英语六级通过情况


对数据结构的分析

该资料设计上属于结果变量为二值的成组设计定性资料,列联表分类上属于横断面研究设计四格表资料。

该目的是比较两个性别组英语六级通过率是否相等,可采用一般 χ2 检验或 Fisher 精确检验来处理。

软件操作:SAS

临度科研 | 数据统计的理解和运用(四)列联表之卡方检验


临度科研 | 数据统计的理解和运用(四)列联表之卡方检验

图1:频数分布


临度科研 | 数据统计的理解和运用(四)列联表之卡方检验

图2:统计结果


结果解答:第一步,先看期望频数,从上图得知,四个频数分别为:49.453、23.548、34.548和16.452,均>5,故采用 Pearson 卡方检验,结果 χ2=10.887,P=0.001,拒绝H0 假设,认为女生的通过率高于男生(χ2=10.887,P=0.001),差异有统计学意义。

软件操作:R语言

临度科研 | 数据统计的理解和运用(四)列联表之卡方检验

临度科研 | 数据统计的理解和运用(四)列联表之卡方检验

图3:数据矩阵


临度科研 | 数据统计的理解和运用(四)列联表之卡方检验

临度科研 | 数据统计的理解和运用(四)列联表之卡方检验

图4:卡方检验结果


结果只有统计量,并没有出现期望频数,因此我们需要再次敲入代码:

临度科研 | 数据统计的理解和运用(四)列联表之卡方检验

临度科研 | 数据统计的理解和运用(四)列联表之卡方检验

图5:期望频数


从结果得知,所有频数均>5,与SAS结果一致,结果,χ2=9.637,P=0.001,拒绝 H0 假设,认为女生的通过率高于男生(χ2=9.637,P=0.001),差异有统计学意义。

软件操作:SPSS

1、建立数据库

临度科研 | 数据统计的理解和运用(四)列联表之卡方检验

图6:卡方检验数据库


2、对数据进行加权

数据 → 加权个案 → 对需要加权的变量进行加权 → 确定

临度科研 | 数据统计的理解和运用(四)列联表之卡方检验

分析 → 描述统计 → 交叉表 → 选择行变量和列变量 → 统计量选择卡方 → 单元格选择期望 → 勾选列百分比

临度科研 | 数据统计的理解和运用(四)列联表之卡方检验

图8:卡方检验


临度科研 | 数据统计的理解和运用(四)列联表之卡方检验

图9:结果


从结果得知,所有频数均>5,与SAS和R结果一致,结果,χ2=10.887,P=0.001,拒绝 H0 假设,认为女生的通过率高于男生(χ2=10.887,P=0.001),差异有统计学意义。

例2.某大学对计算机专业、金融专业、传媒专业各50名学生进行心理测试,并判断每个学生属于哪一类典型气质类型,所得结果整理成下表,请进行合理的统计分析。

临度科研 | 数据统计的理解和运用(四)列联表之卡方检验

表2:心理测试结果


对数据结构的分析

本例属于原因变量和结果变量均为多值名义变量单因素多水平设计定型资料,从列联表的分类上来看属于双向无序R×C表。

比较原因变量各水平的频数分布情况,可以用一般χ2检验。

临度科研 | 数据统计的理解和运用(四)列联表之卡方检验

临度科研 | 数据统计的理解和运用(四)列联表之卡方检验

图10:频数分布


临度科研 | 数据统计的理解和运用(四)列联表之卡方检验

图11:统计结果


结果解答:第一步,先看期望频数,从上图10得知,频数均>5,故采用Pearson卡方检验,结果,χ2=3.434,P=0.753,不能拒绝 H0假设,因此尚不能认为不同人格的专业分布不同(χ2=3.434,P=0.753)。差异无统计学意义。

软件操作:R语言

临度科研 | 数据统计的理解和运用(四)列联表之卡方检验

临度科研 | 数据统计的理解和运用(四)列联表之卡方检验

图12:建立矩阵


临度科研 | 数据统计的理解和运用(四)列联表之卡方检验

临度科研 | 数据统计的理解和运用(四)列联表之卡方检验

图13:卡方检验结果


临度科研 | 数据统计的理解和运用(四)列联表之卡方检验

临度科研 | 数据统计的理解和运用(四)列联表之卡方检验

图14:输出期望频数


结果解答:第一步,先看期望频数,从上图14得知,频数均>5,故采用Pearson卡方检验,结果,χ2=3.434,P=0.753,不能拒绝 H0假设,因此尚不能认为不同人格的专业分布不同(χ2=3.434,P=0.753)。差异无统计学意义。

软件操作:SPSS

1、建立数据库

临度科研 | 数据统计的理解和运用(四)列联表之卡方检验

图15:建立数据库


2、对数据进行加权

数据 → 加权个案 → 对需要加权的变量进行加权 → 确定

临度科研 | 数据统计的理解和运用(四)列联表之卡方检验

图16:数据加权


临度科研 | 数据统计的理解和运用(四)列联表之卡方检验

图17:进行卡方检验


临度科研 | 数据统计的理解和运用(四)列联表之卡方检验

图18:卡方检验结果

结果解答:第一步,先看期望频数,从上图18得知,频数均>5,故采用Pearson卡方检验,结果,χ2=3.434,P=0.753,不能拒绝H0假设,因此尚不能认为不同人格的专业分布不同(χ2=3.434,P=0.753)。差异无统计学意义。

好啦,本期讲解到此结束,更多类型的列联表分析,下次再分享!

欢迎大家在评论区提出自己的问题~


分享到:


相關文章: