微信直播

以人口普查为例解析多样本两两比较的秩和检验

Published at: 2015年第1卷第S1期

张天嵩
关键词:

引言

单因素多水平(≥3)设计的计量资料分析比较常见,但各个样本的总体呈偏态分布或方差不齐,在分析时常见的错误是忽视数据的数理条件,简单地采用单因素方差分析(One-way analysis of variance),来比较一个因素不同水平间的几个样本均数,以推断其总体均数相同。本章将以实例说明,如何正确分析此类数据。

实例数据

该数据来自Stata13.0自带数据,是美国50个州的人口普查资料,含有50个样本(州),13个变量,我们只选取“state”、“region”、“medage”三个变量的数据,分别表示“州(字符串变量)”、“大区域(字符串变量,含有“N Cntrl”、“NE”、“South”、“West”四个水平)、“各州人群的中位年龄(连续型变量)”,整理成Excel格式文件如表4-1所示,命名为meanage.xlsx,存储在C盘根目录下备用。

单因素多组设计的计量资料分析思路

对于单因素多水平(≥3)设计的计量资料分析,正确的做法是应该对独立数据进行正态性、方差性齐检验,若满足相应数理条件,则可以采用单因素方差分析;如不满足相应数理条件,则要采用K-W检验(Kruskal-Wallis test)等非参数检验方法来处理此类数据,即是利用多个样本的秩和来推断各样本分别代表的总体位置有无差别,相当于单因素方差分析的非参数法;如果经过多个样本比较的秩和检验,认为各总体的位置不同,还有可能需要进一步作两两比较的秩和检验,以推断哪两个总体不同[1]。 

单因素方差分析

一般情况下,针对此类连续型数据,会首先考虑采用单个因素方差分析,多个软件如R、SAS、Stata、SPSS等均可以轻松实现。本章不做为重点讨论,只采用Stata的oneway命令,具体操作过程及结果(总体比较及两两比较)如下: 

从结果中可以发现,四大区域的人口中位年龄总体有差异,“NE”区域中位年龄最大,“West”区域年龄最小;两两比较结果显示,只“NE”区域 与“West”区域人口中位年龄差异有统计学意义(P<0.001)。

这样分析是否正确?该分析过程忽视了使用单因素方差分析所需的数理条件。对于多组设计的连续型数据,如果采用单因素方差分析,需要满足“INH”数理条件,即时要求数据应满足独立性(I)、正态性(N)、方差齐性(H)。 

先用对各组数据进行正态性检验,命令如下:

swilk命令是采用Shapiro-Wilk W方法检验数据正态性,结果发现“South” 组的数据不服从正态分布(相应的P=0.00953),而其他三组的数据服从正态分布。 

再看方差齐性。在单因素方差分析中“Bartle ’s test for equal variances”为方差齐性检验结果,相应P=0.014,提示不满足方差齐性假设。也就是说该数据不符合使用单因素方差分析的数理条件,因此不能使用单因素方差分析,需要相应的非参数检验,即K-W检验。

多个样本间两两比较的秩和检验

一般情况下,K-W秩和检验只能推断总体分布不同或不全相同,而统计学书籍及软件一般只提供多个样本比较的秩和检验方法,但实际上,工作者往往对两两比较的结果更为感兴趣,因此还需要作组间的多重比较。本节将主要介绍使用Stata和SAS软件来实现多个样本间进行两两比较的秩和检验。

1/Stata实现

接下来,使用K-W检验来处理此类数据。在Stata中kwallis命令专门用于K-W检验,具体过程及结果如下: 

结果发现,四大区域人口中位年龄差异有统计学意义,相应P=0.0007。但遗憾的是该命令没有提供多组两两比较的秩和检验结果,可喜的是由Herve为Stata编写一个非常有用、易用的非官方宏命令-kwallis2,可以用于实现两两比较或多个实验组针对同一个对照组进行比较,该命令已在多篇文献中使用[2-4]。命令安装,在联网的情况下,在Stata命令输入框口键入:ssc install kwallis2,即可完成自动安装。 

命令使用格式为[5]:kwallis2变量名[if exp] [in range],b(分组变量) control(对照组)。如果要获得两两比较的结果,不需要加“control(对照组)”选择项;如果加用“control(对照组)”选择项,只报告各实验组与对照组比较的结果。需要注意的是,该命令的分组变量只能是数字型变量,所以要将本数据的字符串变量“region”用encode命令转换为数字型变量,命令如下:

. encode region, generate(regionno)

该命令会按字母升序自动将字符串变量“region”转换为数字型变量 “regionno”(其中1=N Cntrl,2=NE,3=South,4=West),则可以采用kwallis2命令进一步分析,命令及结果如下: 

从中可以发现,总体检验结果与kwallis2命令相同,但提供了两两比较的秩和检验结果,可以发现“NE”区域年龄与最大,与其他三个区域差异有统计学意义,P<0.01。

为便于对比,如表4-2所示,将单因素分析(表格左下部分)和K-W检验 (右上部分)的两两比较结果(统计量及相应P值)整理汇总。

2/SAS实现

丁元林[6]等提出联合使用SAS的NPAR1 WAY、FREQ程序步、RANK和ANOVA等程序步实现K-W检验以及多个样本两两比较,其中,各个样本两两比较一般可通过RANK和ANOVA两程序步结合,采用MEANS语句来实现,代码及主要说明如表4-3所示: 

可以发现,通过把每个区域的秩次作为统计量,进行方差分析,实际上也是对平均秩和进行比较,相应F=8.19,P=0.0002,提示四个区域平均年龄差异有统计学意义;两两比较的结果也显示可以发现“NE”区域年龄与最大,与其他三个区域差异有统计学意义,P<0.05。

结语

我们有个误区,常认为参数检验的统计效能比非参数检验统计效能高,实际上,对于不满足参数检验数理条件的数据,采用相应非参数检验的统计效能反而比错误使用的参数检验统计效能高,如本例;而且非参数统计对总体的分布类型不做任何要求,不受总体参数的影响,适用范围广,可以用于任何类型资料的统计分析,建议临床医务人员及科研工作者熟悉和掌握。

参考文献

[1]  杨树勤. 中国医学百科全书:医学统计学[M]. 上海:上海科学技术出版社,1985.

[2]  Tekabe Y,Li Q,Rosario R,et al. Development of Receptor for Advanced Glycation End Products–Directed Imaging of Atherosclerotic Plaque in a Murine Model of Spontaneous Atherosclerosis[ J]. Circ Cardiovasc Imaging,2008,1(3):212-219.

[3]  Mutevedzi PC,Rodger AJ,Kowal P,et al. Decreased Chronic Morbidity but Elevated HIV Associated Cytokine Levels in HIV-Infected Older Adults Receiving HIV Treatment:Bene t of Enhanced Access to Care[ J]? PLoS One,2013,8(10):e77379.

[4]  Leech RM,McNaughton SA,Timperio A. Clustering of children’s obesity-related behaviours:associations with sociodemographic indicators[ J]. Eur J Clin Nutr,2014,68(5):623-628.

[5]  Herve M. help for“kwallis”.[EM/BO](1999.5).Available online:h p://www. haghish.com/statistics/stata-blog/stata-programming/download/kwallis2.html

[6]  丁元林,孔丹莉. 多个样本及其两两比较的秩和检验SAS程序[ J]. 中国卫生 统计,2002,19(5):313-314. 

张天嵩

张天嵩,复旦大学中西医结合研究院标准化研究所副所长,上海市静安区中心医院(复旦大学附属华山医院静安分院)副院长、中医科主任。医学博士,主任医师,教授,硕士生导师。首届上海市区域名医,上海市中医专家社区师带徒项目指导老师,静安区重点学科带头人。历任和现任中华中医药学会、中国中西医结合学会、上海市医学会、上海中医药学会、上海市中西医结合学会、上海市针灸学会等学术委员会所属多个专科分会的常委、委员、方法学组组长、青年委员等;《中国循证医学杂志》、《上海针灸杂志》、《中国医院统计》编委;多家医学专业学术期刊审稿专家。

以呼吸系统疾病中西结合治疗、循证医学方法学、中医药大数据挖掘等为研究方向。主持和以主要研究者参与上海市卫生计生委、上海市科委、静安区科委等研究课题8项;在国内外学术期刊发表论文150余篇(含SCI收录20篇);主编、合著、参编、参加翻译等医学著作10余部,其中,主编《实用循证医学方法学》(第1,2版)多次重印、为畅销书,屡次获奖;新作《高级Meta分析方法-基于Stata实现》颇受同道好评。积极推广循证医学知识,主持并成功举办国家级CME项目4项;多次受邀至北京大学医学部、北京大学航天临床医学院、上海交通大学医学院、南方医科大学、上海体育学院等大学院校,以及复旦大学附属华山医院及中山医院、四川大学华西医院、武汉大学中南医院等多家大学附属医院授课或专题讲座。


排版编辑:严斯瀛 AME Publishing Company

责任编辑:江苇妍 AME Publishing Company

comments powered by Disqus

附件