微信直播

多个样本间两两比较的秩和检验及Stata实现

Published at: 2015年第1卷第S1期

张天嵩
关键词:

对于单因素多水平(≥3)设计的计量资料分析,常见的错误是忽视数据的数理条件,简单地采用单因素方差分析(One-way analysis of variance),来比较一个因素不同水平间的几个样本均数,以推断其总体均数相同。而正确的做法是应该对独立数据进行正态性、方差性齐检验,若满足相应数理条件,则可以采用单因素方差分析;如不满足相应数理条件,则要采用K-W检验(Kruskal-Wallis test)等非参数检验方法来处理此类数据,即是利用多个样本的秩和来推断各样本分别代表的总体位置有无差别,相当于单因素方差分析的非参数法;如果经过多个样本比较的秩和检验,认为各总体的位置不同,还有可能需要进一步作两两比较的秩和检验,以推断哪两个总体不同[1]。但在一般情况下,统计学书籍及软件一般只提供多个样本比较的秩和检验方法,所以经常有朋友会问到如何对多个样本间进行两两比较的秩和检验,本文以实例说明如何应用Stata软件来实现多个样本间两两比较的秩和检验。

先引用一个数据,该数据来自Stata13.0自带数据,是美国50个州的人口普查资料,含有50个样本(州),13个变量,我们只取“state”、“region”、“medage”三个变量的数据,分别表示“州(字符串变量)”、“大区域(字符串变量,含有“NCntrl”、“NE”、“South”、“West”四个水平)、“各州人群的中位年龄(连续型变量)”,整理成如表1所示,按该格式将数据输入到Stata数据管理器中,待分析。

表1  美国50个州人群中位年龄数据

一般情况下,针对此类连续型数据,我们会首先考虑采用单个因素方差分析,多个软件如R、SAS、Stata、SPSS等均可以轻松实现。如采用Stata的oneway命令,具体操作过程及结果(总体比较及两两比较)如下:

从结果中可以发现,四大区域的人口中位年龄总体有差异,“NE”区域中位年龄最大,“West”区域年龄最小;两两比较结果显示,只“NE”区域与“West”区域人口中位年龄差异有统计学意义(P<0.001)。

这个分析过程忽视了使用单因素方差分析所需的数理条件。对于多组设计的连续型数据,如果采用单因素方差分析,需要满足“INH”数理条件,即时要求数据应满足独立性(I)、正态性(N)、方差齐性(H)。

先用对各组数据进行正态性检验,命令如下:

swilk命令是采用Shapiro-Wilk W方法检验数据正态性,结果发现"South"组的数据不服从正态分布(相应的P=0.00953),而其他三组的数据服从正态分布。

再看方差齐性。在单因素方差分析中“Bartlett's test for equal variances”为方差齐性检验结果,相应P=0.014,提示不满足方差齐性假设。也就是说该数据不符合使用单因素方差分析的数理条件,因此不能使用单因素方差分析,需要相应的非参数检验,即K-W检验。

接下来,使用K-W检验来处理此类数据。在Stata中kwallis命令专门用于K-W检验,具体过程及结果如下:

结果发现,四大区域人口中位年龄差异有统计学意义,相应P=0.0007。但遗憾的是该命令没有提供多组两两比较的秩和检验结果,可喜的是由Herve为Stata编写一个非常有用、易用的非官方宏命令-kwallis2,可以用于实现两两比较或多个实验组针对同一个对照组进行比较,该命令已在多篇文献中使用[2-4]。命令安装,在联网的情况下,在Stata命令输入框口键入:ssc install kwallis2,即可完成自动安装。

命令使用格式为[5]:kwallis2 变量名 [if exp] [in range], by(分组变量) control(对照组)。如果要获得两两比较的结果,不需要加“control(对照组)”选择项;如果加用“control(对照组)”选择项,只报告各实验组与对照组比较的结果。需要注意的是,该命令的分组变量只能是数字型变量,所以要将本数据的字符串变量“region”用encode命令转换为数字型变量,命令如下:

. encode region, generate(regionno)

该命令会按字母升序自动将字符串变量“region”转换为数字型变量“regionno”(其中1=N Cntrl,2=NE,3=South,4=West),则可以采用kwallis2 命令进一步分析,命令及结果如下:

从中可以发现,总体检验结果与kwallis2命令相同,但提供了两两比较的秩和检验结果,可以发现“NE”区域年龄与最大,与其他三个区域差异有统计学意义,P<0.01。

为便于对比,如表2所示,将单因素分析(表格左下部分)和K-W检验(右上部分)的两两比较结果(统计量及相应P值)整理汇总。

表2 不同统计方法的分析结果

我们有个误区,常认为参数检验的统计效能比非参数检验统计效能高,实际上,对于不满足参数检验数理条件的数据,采用相应非参数检验的统计效能反而比错误使用的参数检验统计效能高,如本例;而且非参数统计对总体的分布类型不做任何要求,不受总体参数的影响,适用范围广,可以用于任何类型资料的统计分析,建议临床医务人员及科研工作者熟悉和掌握。

 

参考文献

  1. 杨树勤.中国医学百科全书-医学统计学.上海:上海科学技术出版社,1985.

  2. Tekabe Y, Li Q, Rosario R, et al. Development of Receptor for Advanced Glycation End Products–Directed Imaging of Atherosclerotic Plaque in a Murine Model of Spontaneous Atherosclerosis. Circ Cardiovasc Imaging. 2008;1:212-219

  3. Mutevedzi PC,Rodger AJ,Kowal P,et al. Decreased Chronic Morbidity but Elevated HIV Associated Cytokine Levels in HIV-Infected Older Adults Receiving HIV Treatment: Benefit of Enhanced Access to Care? PLOS ONE.2013;8(10): e77379

  4. Leech RM, McNaughton SA, Timperio A. Clustering of children’s obesity-related behaviours: associations with sociodemographic indicators. European Journal of Clinical Nutrition.2014;68, 623-628

  5. Herve M. help for “kwallis”.[EB/OL](1999.5).http://www.haghish.com/statistics/stata-blog/stata-programming/download/kwallis2.html

 

作者简介

张天嵩,医学博士,主任医师,教授,硕导,学科带头人。工作于上海市静安区中心医院(复旦大学附属华山医院静安分院)、复旦大学附属静安区中心医院(筹)。以循证医学方法学、呼吸系统疾病的中西医结合治疗为研究方向。现任上海市医学会临床流行病学和循证医学专科分会、上海市中西医结合学会循证医学专业委员会等多家专业学术委员会委员。《中国循证医学杂志》编委;《中国循证医学杂志》、《循证医学》等多本专业学术期刊审稿人。

在循证医学方法学、现代数理统计、数据挖掘等方面有较深入研究。熟悉不同数据类型的Meta分析、Network Meta分析、IPD Meta分析、贝叶斯Meta分析等高级方法学及应用Stata、R、WinBUGS等软件实现。近年来,主持和以主要研究者参与上海市卫生计生委、上海市科委等研究课题8项;主持循证医学方法学相关国家级继续医学教育项目4项;至今已在国内外学术期刊发表论文140余篇,主编、副主编、合著、参编、参加翻译等医学著作10余部,共同主编《实用循证医学方法学》(第1,2版)为畅销书,屡次获奖;新作《高级Meta分析方法-基于Stata实现》颇受同道好评。

 

同专栏相关阅读

 

doi: 

10.3978/kysj.2014.1.2204
comments powered by Disqus

附件