微信直播

AME统计021|戏说卡方检验(一)

Published at: 2015年第1卷第S1期

四叶虫
关键词:

可以这样说,卡方检验是临床科研中最常用的统计学方法,没有之一。当然,卡方检验并不仅仅是我们常见的四格卡方检验形式,还有配对卡方检验、R×C 列表卡方检验、分层卡方检验等。其中 R×C 卡方检验又分为双向无序、单项有序、双向无序。貌似简单的卡方检验细究起来其实并不简单,如果我们没有把它们之间的逻辑关系理清楚往往就会出现误学误用。下面我们不妨结合一些科研案例由浅入深解剖卡方检验,尽量避开复杂的数理理论,让大家学之能用、用之能胜。

1、入门篇——卡方检验它是用来做什么的?

如果要比较男性组和女性组之间身高或者体重的差异有没有统计学意义,用什么?大家都知道 t 检验,因为身高或者体重它们是计量资料,而且是连续型变量,如果满足正态、等方差这两个前提,两组间就可以用独立 t 检验,这个大家再熟悉不过。那么如果相比较男性组和女性组之间治疗有效率差别有没统计学意义,用什么?也很简单,这个是计数资料,不是连续型的,有效的人数要么是七个,要么是八个,不可能出现七个半,另外有效人数除以整体人数就是有效率,率的比较当然用卡方检验,这个大家也很熟悉。

好的,一起来看下面一道简单的例题:某药在男性组和女性组治疗有效和无效的人数如表 1 所示,问男性组和女性组治疗有效率有没差别?

表1:某药物在男性组和女性组治疗效果的差别

注意上面的题目我给大家挖了一个坑,如果你没注意,可能就栽进去了。什么意思?我们来看,从表 1 我们很容易看出:男性组有效率为 95.19%,女性组有效率 78.13%,肯定是有差别的,这个毫无疑问。也就是说对于我们一个小小的实验组做出来治疗率,不可能完全一模一样,差别几乎是绝对存在的,一点也不奇怪,没差别才叫奇怪。但是我们关心不是这个实验组的有效率是否有差别,我们关心的是我们这个差别的结论能否推广到整体,这样我们的科研的课题才是一个高尚的课题,一个纯粹的课题,一个有道德的课题,一个脱离了低级趣味,一个对人民有益的课题,对吧?所以这个题目应该怎么问?应该问:两组间有效率差别是否有统计学意义。差别有统计学意义了才能推广到整体,这就是卡方检验要解决的问题。怎么解决?它用卡方值换算出 P 值,然后根据 P 值下结论,那么我们进入下一个问题:

2、卡方检验的卡方值是个什么东西?

前面我们说过了,男性组有效率为 95.19%,女性组有效率 78.13%,我们可以下结论:在本实验组男女治疗有效率有差别,但还不能说差别有统计学意义,因为有的人会说这个差别会不会是抽样误差引起来的?该卡方检验上场了。卡方检验说这几个数字 99、5、75、21 都是你实际的数值,也就是实际频数,如果其实它们没差别是由于抽样误差导致的假象,那理论上这些数字(理论频数)应该是多少?我先根据你的实际频数来推算一下,如表 2,它们应该是 90.5、13.5、83.5、12.5,怎么计算下一段马上会讲到。

表2:某药物在男性组和女性组治疗实际频数

大家有兴趣可以自己动手算算,从横向看,90.5:13.5 和 83.5:12.5 结果几乎是一样的,从纵向看,90.5:83.5 与 13.5:12.5 结果也几乎是一样的,很完美吧,它是理论频数嘛。我们卡方检验就是要看看所有理论频数和所有实际频数之间差别大不大,如图1。

图1:实际频数和理论频数之间差距

当然图 1 只是一种感性的理解,而后统计学家把它整理成严谨的计算公式表达为:x2=(a-a`)2/a` + (b-b`)2/b` + (c-c`)2/c` + (d-d`)2/d`。a、b、c、d代实际论频数,a`、b`、c`、d` 代表从这些实际频数推算出的理论频数。R×C 的卡方检验通用公式为 x2=∑(A-T)2/T,A 代表理论频数,T 代表实际频数。四格卡方公式可以简化为 x2=(ac-bd)2n/(a+b)( b+c)(c+d)(a+d), n 代表总例数,即 a+b+c+d。这些公式大家记不住都不要紧,电脑时代,这都不是个事儿,学会 SPSS 卡方检验操作,点一下鼠标结果就出来了。关键是大家要记住这个卡方值 x2 所代表就是理论频数和实际频数差别,x2 越大那么二者差别就越大。当二者差别越大那么由于抽样误差这种偶然因素导致它们没有差别的概率 P 值就越小。那这个 P 值要小于多少,我们下结论才比较有自信呢?统计学上一般认为 P 小于 5%,好比两个选手打牌,乙方打 100 场才赢甲方 5 场,我们认为甲方的打牌技术要比乙方强,乙方赢的那 5 场完全是因为他抓了一手好牌。好的,明白了卡方值是怎么来的,对于卡方检验我们已经有了一个大体的认识,为了进一步理解下面要补充一些小的细节问题。

 

3、理论频数是怎么来的,为什么卡方值越大 P 值越小,什么是卡方检验的自由度?

图2:由理论频数计算实际频数示意图

第一个问题:这个理论频数是咋算出来的?我们直观了解一下,如图 2 的箭头所示:理论频数 a`=(174×104 )/200=90.5, 理论频数 d`=(26×96 )/200=12.5,我想不用再说大家也知道 b`,c` 如何计算,理解就行,公式不需要记,电脑程序都帮你记着呢。

图3:四格卡方检验曲线下面积分布示意图

第二个问题:为什么卡方值越大 P 值越小?如图 2,四格卡方自由度等于 1,x2 分布曲线如图 2,比如 x2=10,P 值是指 10 以外红色部分占整个曲线下面积的多少,比值越小概率越低。

第三个问题:为什么四格卡方表格自由度是 1 ?我们先举个例子,门外有张三、李四、王五 3 个人,只要进来任意两个人我就知道第三个人叫什么,只有这两个人有自由,一旦这两个定了,第三个人是谁就被人知道了,所以自由度是 2。这个四格表只要你填上任何一个比如 c,那么 c 对应的 a 位置就跑不了,而 a 对应 b 也跑不了,b 对应 d 也固定了,只有第一个位置填什么是让你自由选择的,自由度就是 1。也有的书解释为,在四格表周围四个数之和固定的情况下只有一个格子可以让你自由取自,道理跟前面讲的差不多。R×C 的卡方表自由度计算公式是(R-1)×(C-1),R 代表行,C 代表列。

以上我们了解了卡方检验的目的、卡方值以及卡方检验的自由度,那么,你知道卡方检验如何解读吗?普通四格表和配对四格表有什么区别?配对卡方检验和Kapa分析又有什么不同呢?敬请期待下期《戏说卡方检验(二)》,答案为你揭晓!

 

点击链接,可进入微店购买《傻瓜统计学》。http://wd.koudai.com/item.html?itemID=1422304273&p=-1

doi:

10.3978/kysj.2014.1.1177
comments powered by Disqus

附件