微信直播

AME统计024|戏说卡方检验(四)

Published at: 2015年第1卷第S1期

四叶虫
关键词:

编者按:戏说卡方检验在「科研时间」连载以来,得到了许多读者的肯定与支持。今天,作为戏说卡方系列的收官之作,虫哥又将跟我们分享什么干货呢?一起来看看吧。

一、双向有序的 R×C 列表

上期我们介绍完双向无序和单向有序的 R×C 列表,接下来再来看看双向有序的 R×C 列表,它其实有两种形式。

表1:冠脉病变数量和心肌缺血总负荷的关系

图1: R×C 双向有序 Spearman 相关检验操作流程示意图

双向有序的 R×C 列表第一种形式,如表 1 所示,无论分组变量和指标变量都存在等级关系,这样即使你从另外一个专业角度把分组变量和指标变量进行互换,新的指标变量仍然有等级关系,所以这种双向有序 R×C 列表就肯定不能用卡方检验,要用非参数检验,然后再两两检验(SPSS 操作方法前面已经讲过)。注意,由于两边都是有顺序的变量,我们很自然地想到这两边顺序是否存在关联,即一组等级变量升高另外一组等级变量是否也随之升高(或者降低)?猜对了,这才是双向有序 R×C 列表更常用科研思路,我们可以进一步做 spearman 相关,比如表 1,我们做出来 spearman 相关系数是 0.51(P<0.01)说明这两组数据有正相关,也就是说病变冠脉数目越多,心肌缺血总负荷越大,这就是另外一种科研思路。虽然这已经不是卡方检验内容,但还是在这里把方法做个简单介绍,录入与卡方检验相同,录入后操作如图1。这里我们懂得它的道理就行,软件的操作和解读我们将在以后章节介绍。

表2:不同评价方法评定评价某药物的治疗效果

另一种双向有序的 R×C 列表跟我们前面讲过的配对四格表相似,在表中看不出哪个是分组变量哪个是指标变量,性质都是相同的,都是对同一指标的评价。所以这种形式的 R×C 列表科研思路跟上面不同,它是用来做 kapa 分析的,SPSS 操作方法前面已经讲过。

二、双向无序的 R×C 列表就不能做相关吗?

我们再次回到双向无序和单向有序的 R×C 列表,来讨论一个前面没有讨论过的问题,现在是时候讨论它了。既然双向有序 R×C 列表可以做相关,那么双向无序或单向无序的 R×C 列表我们能不能做相关,甚至直线相关?这个问题经常引起大家争论。对于指标变量有序无序有时是比较隐蔽的,不等于说好、中、差就一定是有序,也不等于说黑人、黄种人、白人就一定是无序,要从专业角度考量。比如从对紫外线吸收角度出发这个黑人、黄种人、白人不就成了有序变量了吗?还有,即使看起来是无序,专业上解读似乎也是无序,我们仍然可以做一个探索性尝试,也许它真的就是个有序变量,所以对于双向无序或单向有序的 R×C 列表可以做个相关性的探索。基于这个道理,其实双向无序的 R×C 列表我们也可以尝试做一个相关检验(计算 C 指数),如果 C 指数有意义,可以进一步做个卡方线性相关。这个小节先将简要的道理介绍给大家,以后会有相应的软件操作和解读。

三、花非花,卡方检验的高阶思路——分层卡方检验

花非花,雾非雾,雾里看花,你能分清这变幻莫测的世界?

临床情况往往是复杂多变的,在它面前单纯的卡方检验有时会显得很傻很天真。我们做卡方检验之前都会采用随机分组,也就是告诉读者——看,除了我研究的这个指标之外,其它的影响因素我都随机分配均衡了。真的是这样吗?其实临床中除了我们研究因素,其它的可能的影响因素往往有一大串:性别、年龄、体重、血压、肾功能……等等。那么问题来了,这么多的影响因素在我们几十例或百来例的研究当中真的刚好每一个都分布均衡了吗?有时我们会自欺欺人地认为——“可以”。其实,还有两种情况我们在随机分组前就要考虑清楚。① 万一我们运气很悲催,某个很重要的影响因素在我们随机分组时出现有统计学意义的不均衡怎么办?重新打乱再分组一次?如果这样做,我们就违背了随机原则了。②这个重要的影响因素分布貌似均衡(比如在两组之间分布为 4:6, P 值 0.20),没达到 P<0.05 的概率,但其差异性也可能会影响我们的结果,这两种情况怎么办?有个简单的办法,我搞不定它,那我就删除它,这部分人我把它纳入排除指标,不研究它。嗯,这个办法简单、粗暴,但是确实还是可行的。不过有时候,有的因素不是你想删,想删就能删,如果它是个固有的属性,或者调查数据已经出来没办法再更改了,怎么办?出现这种情况,还能不能好好地玩耍?可以的,这个时候就该分层卡方检验上场了,既然这个影响因素这么重要,我们又怕它在组间真的不平衡,我们干脆把它考虑进去多设一个层,把它掌控在手里,用统计学方法校正它,消除它的影响。其实就是在我们研究的因素之外,增加了一个分层混杂因素,由单因素思路变为多因素思路。所以分层卡方就是一种最简单的多因素统计学方法。当然还有一些更复杂的统计学方法,比如,近年很热门的倾向性得分匹配分析,在这里就不展开介绍。当然,对于我们简单的临床研究,做好随机和对照,用卡方一般能胜任,如果试验设计上能再考虑得复杂一些,用到分层卡方,说明统计设计上已经考虑得比较有深度了,我们已经开始有了一些高级统计学的思维模式了。

道理都讲完了,我们来看一个例子加深一下印象。某医生想看看女性的口服避孕药是否会增加冠心病的发生率,做了一个研究,结果如表 3。

表3:女性口服避孕药与冠心病发生率的调查结果


经卡方检验 P=0.033,大喜过望,得出结论未服药组冠心病发生率 22.6%,服药组冠心病发生率 36.5%,P<0.05 差异有统计学意义,所以该避孕药增加女性冠心病发病率,投稿。审稿人一看,大怒,因为在作者的研究中年龄分布不均衡,而从专业意义上,我们知道年龄越大越容易得冠心病,会不会是这个原因误导了结果?遂建议按年龄分层,分为两层:大于 45 岁组,小于 45 岁组,结果如表 4 所示。

 

表4:女性口服避孕药与冠心病发生率考虑到年龄分层的的调查结果


在 SPSS 计算时,我们在卡方检验时把年龄分层纳入层 1,在统计量选项中除了勾选卡方检验选项,还要再勾选 cochran`s and Mantel-Heanszel 选项,如图 2。 这样 SPSS 就会给出一个校正的 Cochran P 值,本例在校正年龄分层后 P=0.064,也就是说把年龄这个混杂因素均衡后,还不能说这个口服避孕药物增加了女性冠心病发病率。

图2:分层卡方 SPSS 操作流程

“戏说卡方检验”到这里就要告一段落了。我们一起回顾一下,在这四个小节里我们讲了卡方检验是做什么的,它该如何解读,四格列表、R×C 列表的各种形式的卡方检验、分层卡方检验该如何使用,讲的都是统计学的大道理。统计的精髓不在于公式的记忆、数理的推导,而是统计的思想,原来小小的卡方检验里面还有这么多奥秘。统计思想指导我们科研设计,咱们这个平台不就是叫「科研时间」嘛,至于 SPSS 操作和结果的解读那都不是个事儿,有机会虫哥再给大家娓娓道来。

“戏说卡方检验”至此完美收官,至于虫哥何时再出山为咱们讲讲 SPSS 操作和结果的解读等等,就要看看大家的呼声有多高了,赶紧在下面参与评论,把虫哥唤出来吧~

 

“戏说卡方检验”系列文章

点击链接,可进入微店购买《傻瓜统计学》。http://wd.koudai.com/item.html?itemID=1422304273&p=-1#rd

doi:

10.3978/kysj.2014.1.1257

 

comments powered by Disqus

附件