微信直播

AME统计023|戏说卡方检验(三)

Published at: 2015年第1卷第S1期

四叶虫
关键词:

编者按:上期虫哥为我们介绍了卡方检验解读的方法、普通四格表和配对四格表的区别、kapa 分析与配对卡方检验,以及四格卡方检验需要注意的几个事项,通俗易懂的讲解得到读者的热烈欢迎,本期虫哥将继续带我们认识多姿多彩的 R×C 列表卡方检验。

 

1、初识 R×C 列表卡方检验

R×C 列表卡方检验中的 R 代表横向有多少行,C 代表纵向有多少列。比如前面所说的四格卡方检验应该是 2×2 列表的卡方检验。那么如果表格继续往横向或纵向增加就会有 2×3、2×4、2×5、3×3、3×4、3×5 等等,都统称为 R×C 列表卡方检验,这种表格有 3 种典型的形式,我们来一起认识一下:

表1:不同人种亚甲基四氢叶酸还原酶三种基因型分布是否有差异

表2:三种减肥药疗效是否有差别

表3:心肌缺血总负荷和冠脉病变数量关系

 

① 如表1,R×C 卡方列表在纵横两个方向都是无序的,叫双向无序 R×C 列表;

② 如表2,横向上是有序的,纵向上是无序的;(或者相反,横向上是无序的,纵向上是有序的),叫单向有序 R×C 列表;

③ 如表3,纵横两个方向上都是有序的,叫双向有序 R×C 列表。

 

这三种情况统计学的思路和侧重点是不一样的,这就是我们以后要讨论的重点。但这里我们首先要了解为什么要这样划分?因为有它的专业道理。在四格卡方检验中阴性组和阳性组谁摆在前面关系都不大,但一旦超过 2 格,排列在顺序上是不能乱颠倒,比如“好、中、差”可以接受,排列成“差、中、好”也可以接受,但是要排列成“中、好、差”或者“好、差、中”专业上就说不通了,就是说专业意义不允许顺序乱颠倒。

但问题恰恰出在这里,因为卡方检验有个重要数理特征,它必须可以让各个组随意颠倒顺序而不影响 x2 值,也就是说专业要求和数理结果有时会出现不和谐的情况,怎么办?我们对这三种情况逐一讨论。

 

2、双向无序的 R×C 列表卡方检验可以做什么?

如表1,既然是双向无序 R×C 列表,那么你把白人、黑人、黄种人三个位置随意调换,或者把 CC 型、CT 型、TT 型三个位置随意调换专业上都是说得过去的,也就是说它的数理特点和专业要求没有矛盾,这种情况最简单。

对于双向无序的 R×C 列表卡方检验,我们根据公式计算或输入 SPSS 得出的卡方值是整体卡方值,得出的 P 值也是整体 P 值。什么意思?通俗一点说,如果这个 P 值 <0.05,它只是告诉你这几组中至少有一组和其他组不同,但是具体是哪一组目前它还不知道,怎么办?要进一步做两两检验。这个思路几乎贯穿于所有多组比较统计学方法中,比如 ① 对于符合正态等方差的连续型变量多组比较采用方差分析(Annove分析),而后两两检验;② 对于率的多组比较,先采用卡方检验,而后两两检验;③ 对于非正态,方差不齐或不符合某种函数分布的多组数据比较可以采用非参数检验而后两两检验。大家看到了——“两两检验”这个关键词反复出现。下面要进一步告诉大家两两检验方法有很多种,大家是否还记得方差分析之后两两检验有 SNK-q 检验、LSD-t 检验、Dunnett-t 检验、Tukey 检验,Scheffe 检验等等多种,R×C 卡方检验和多组非参数检验也有很多种两两检验方法,真头痛,怎么这么多两两检验方法?有没有一种傻瓜化的、放之四海而皆准的、通用的两两检验?下面是好消息——有的:Bonferroni 校正法。这个名字听起来很高大上,大家不要被它吓到,它只是把预设的验前比 a 进行拆分。比如有 4 组样本我们想要知道哪两组有区别,那就要两两比较 6 次,要保证总的错误概率不超过预设的验前比概率 0.05,那么每两组之间错误概率就不能超过 0.05/6=0.0833。如果有 k 组,那么要把预设的 a 值除以 k(k-1)/2。注意,试验设计时如果不是两两比较,是每一组都和第一组比较,那么 k 组只要除以 k-1 即可,比如总共 4 组,其它都和第一组比,只要比较 3 次,那么为 0.05/(4-1)=0.0167,更保守稳妥的公式是把这个概率再除以 2,也就是它是除 2(k-1)。

 

3、单向有序的 R×C 列表就一定不能用卡方检验?

单项有序的 R×C 列表能不能用卡方检验经常引起争论,其实我们只要懂得一个简单技巧就不会出错:如果指标变量是有序的那就不能用,如果分组变量是有序的那就可以用。听起来有点抽象,不要紧,虫哥下面马上展开说明。

对于单向有序的 R×C 列表我们要做的的第一个事情是我们究竟要把哪一组作为分组变量,哪一组作为指标变量,这是由我们的研究目的决定的。两个相同数据的表格,从不同的专业研究目的出发就可以产生不同解读方式(表4、表5)。

 

表4:三种减肥药疗效是否有差别

表5:不同疗效组的人选择减肥药是否有差别

 

表4,我们可以解读成 A、B、C 三种不同的减肥药物作用效果是否有区别,如果有区别,那么我们可以进一步对这三个效果做个两两比较。我们研究的是治疗效果,治疗效果有“好、中、差”之分是个等级资料,三个档次不能互换,不满足卡方检验前提,只能用非参数检验,两两检验可以用非参数检验的两两比较检验,也可以用 Bonferroni 校正。

表5,它的设计方案是这样的,市面上有三种减肥药,我根据减肥的效果分 3 组,即治疗效果好的组、中等的组、较差的组,每组入选 100 人。我想看看这三组病人在选择用药上有什么区别,如果这三组病人选择药物上没区别,很可能它们的不同效果是由其它原因引起的,比如饮食、锻炼或减肥的决心等等。这也是一个研究思路,这个研究思路在专业上是说得通的,比较三组治疗不同效果的病人选择药物是否不同,治疗效果虽然是等级资料,但我们这里研究的落点是选择 3 种药物的构成比有没差异,而这三种药物没有等级关系,是可以用卡方检验来做的,如果有区别那两两检验做的是三个药物品种 A、B、C 而不是疗效好、中、差。两两检验用卡方检验的 Bonferroni 校正。

这两个例子一正一反,告诉大家单项有序的 R×C 表首先要根据实验目的选择好分组变量和指标变量,如果指标变量是有序变量要用非参数检验,如果指标变量是无序变量仍然可以用卡方检验,不能看到单项有序就下结论都不能用卡方检验。

当指标变量是有序变量不满足卡方检验前提条件时,不能用卡方检验,要改用非参数检验,那么它该怎么做,虽然这个已经不属于卡方检验范畴,但我们还是简单地提一下,它的录入格式和卡方检验一样,录入完毕后,操作过程如图1。

 

图1:单向有序的 R×C 列表采用非参数检验操作示意图

 

R×C 列表卡方检验奥妙非凡,精彩未完待续,预知后事如何,且听虫哥下回分解~

 

虫哥统计学

 

下面补充一则《傻瓜统计学》更正声明:

“尊敬的作者,

您好,我非常喜欢您的《傻瓜统计学》以及相关讲座,但我最近阅读时发现,您在“如何正确理解 p 值”那一张中举的例子,表一中的卡方检验P值不等于 0.08,而表二中也不等于 0.01,建议使用数据 28,12,20,20 试一试,这个可以说明问题。

如果我没算对,还请告知!

Best regards

天津肿瘤医院放疗科

董洋

 

“董洋医生,您好!

感谢您对《傻瓜统计学》一书的关注。

此时按照卡方检验结果来统计,P 值应该是 0.0267,具备统计学意义。《傻瓜统计学》一书的编著较为仓促,因此难免出现疏漏。感谢你指出我们的错误,我们将在近期的「科研时间」微信账号上发布一则更正声明,以免继续误导读者。也十分希望您继续对本书提出宝贵意见。

 

此致

敬礼

 

胡志德

2015.9.24

 

点击链接http://wd.koudai.com/item.html?itemID=1422304273&p=-1,可进入微店购买《傻瓜统计学》。

doi:10.3978/kysj.2014.1.1232
comments powered by Disqus

附件