微信直播

AME统计029|随机区组方差分析在SPSS软件中的实现

Published at: 2015年第1卷第S1期

周支瑞
关键词:

编者按:【AME 统计】专栏自开设以来,一直以向读者推送各种统计学干货为宗旨,鼓励自由讨论。相隔多日,还记得我们上期的有奖问答吗?今天,答案将为你揭晓,来看看你答对了没有吧~

上期回顾:

AME统计028|OR、HR、RR:三个经常把人弄晕的概念(全文)

题目:

对前瞻性队列研究数据的分析,可以用 logistic 回归计算 OR 值吗?为什么?

OR能否用于队列研究?答读者问

 

此前发布的微信短文《OR、HR、RR:三个经常把人弄晕的概念》一经发布后,便引起了很多读者的兴趣。为增强互动,文末留下了一个问题:对前瞻性队列研究数据的分析,可以用 logistic 回归计算 OR 值吗?为什么?

让我非常感动的是,有几位作者通过留言评论的方式提出了自己的看法,并说明了自己的理由。科学研究本身提倡百家争鸣,对某一科学问题的看法就应该不唯书、不唯上,应该提倡通过与同行进行积极的、理性的、基于事实的讨论来塑造自己的观点,并在实践中不断修正。

在回答这个问题,之前首先需要说明的一点是:这是一个“开放”的问题,仁者见仁智者见智,没有所谓的“标准答案”,在此,笔者也仅仅谈一些个人的看法,不一定正确,仅供抛砖引玉之用。

如短文中所述, HR 临床价值要高于 OR ,主要原因在于:第一, HR 不仅考虑事件是否发生,还考虑了事件发生的时间;第二, HR 通常来自队列研究,而队列研究是“来自于真实世界”的研究,应该 HR 具有较好的外推性,或者说泛化性,也十分便于解释。相比之下, OR 来自病例对照研究,并不是真实世界的研究,其解释要比 RR/HR 抽象得多。

如果从研究的设计就可以得知 HR 的这两个优势并不是很明显,那我认为也不一定去选 HR/RR 了。举一个例子:某研究探讨重症病人入院时是否有糖尿病与其 ICU 内死亡率的关系。这是一个前瞻性的队列研究,因为是否有糖尿病是在入院时就采集到的信息,而 ICU 内死亡是随后发生的事情。这样的研究,用 Cox 模型计算HR当然无可厚非。但仔细一想,对于 ICU 病人来说,存活时间好像不是什么关键问题:在 ICU 呆了三天后死亡,和在 ICU 待了30天后就死亡,应该没有什么太大的区别,因为 ICU 病人的治疗目标显然不是让患者多活个三五天。因此,对于时间因素并不是很重要的,或随访时间较短的队列研究,我认为也可以用 logistic 回归计算 OR 值。国际上确实有很多研究就是这样处理数据的。

此外,当结局发生率很低时, OR 和 RR (甚至 HR )是大致相同的。比如,某研究采用前瞻性队列研究分析了吸烟与肺癌的关系,队列共包括90000人,其中10000人吸烟,80000人不吸烟。随访三年后,发现吸烟人群中共有100人患肺癌(肺癌发生率1%),而不吸烟的人群中也仅100人患肺癌(肺癌发生率0.125%)。如下表所示:

表1 吸烟与肺癌的队列研究

该队列中, RR 为8.00。如果将该研究视为病例对照研究,计算其 OR为8.07,二者相差不大。可见,对于结局发生率很低的队列研究, RR 与 OR 的结果是十分接近的。笔者认为,对于此类研究计算 RR/HR 或 OR 都可以。

也许有读者会感到疑惑,你的观点提炼出来就是:用 HR 无可厚非,用 OR 也未尝不可。既然鲍鱼和白菜都是可以吃的,那我还吃白菜干什么?为什么有人放着好好的 RR/HR 不用,非要去用 OR 表示暴露因素与结局事件的关联强度呢?

笔者认为,可能与以下原因有关:第一,风气问题。不得不承认的一点是科研中存在“跟风”现象。最先有学者用 logistic 回归来处理随访时间较短的队列研究,得出了 OR 值,这导致了后续的很多学者跟风,也采用 logistic 回归来分析队列研究数据。这种想象与笔者前述提及的“四格表统计中该用 Fisher 确切概率法还是卡方检验”的关系有点类似。有时,当一种不恰当但无伤大雅的学术观点已经形成“气候”时,人们已经很难去,也懒得去改变这种观点。第二,用 OR 可能更便于论文的发表。在科研活动中,尽管有很多学者呼吁重视发表偏移的问题,但是不得不承认的是“阳性结果更容易发表”、“效应明显的研究更容易发表”。同样一个四格表,如果 RR 得到的结果可能是2, OR 肯定是大于2的;如果 RR 得到的结果是0.6, OR 肯定是小于0.6的。因此,用 OR 展示结果时,往往容易神不知鬼不觉地夸大暴露因素与结局事件的关联强度。有的统计学功底很深厚的学者难免存在“投机取巧”的心理,选择 OR 作为统计量,试图堂而皇之地、有板有眼、有理有据地忽悠读者。

笔者|胡志德

 

答对的童鞋赶紧私信小编:“单位+科室+姓名+联系方式+地址”,小编将为你送出由笔者主编的《傻瓜统计学》一本哦~

 

本期的题目又是什么呢?赶紧来看看,与我们一起学习,共同进步吧!

随机区组方差分析在SPSS软件中的实现

一、基本思想

方差分析(analysis of variance,ANOVA),其基本思想是将总变异分解成两个或多个部分方差的和,总自由度分解分解为相应各个部分自由度,其目的在于推断两组或多组的总体均数是否相等。

二、几个重要的概念

1.总变异(total variation),全部观测值差异的和,这种变异称为总变异。

2.组间变异(variation between groups),指各个处理组样本均数不同,与总体均数也不同,组间变异产生的主要原因是各组处理因素的差异。

3.组内变异(variation within groups),每个处理组内部观察值或或变量值大小不同,这种变异称为组内变异,组内变异反映了抽样误差的大小。

三、SPSS方差分析模块

方差分析主要在SPSS软件统计分析菜单里的一般线性模型(General Linear Model,GLM)中实现,其中包含以下选项:

1.单变量(Univariate),这里的变量指因变量,当因变量只有一个时,采用单变量方差分析,完全随机设计方差分析、随机区组设计的方差分析、析因设计方差分析、拉丁方设计方差分析等均采用此选项。

2.多变量(Multivariate),当因变量不止一个时,选用多变量方差分析。

3.重复测量(Reapeated Measures),当不同处理组的同一受试对象接受多次重复测量,这样的数据需要使用重复测量方差分析进行分析,可选择此项。

4.方差分量估计(Variance Compoenents),这是一种多水平模型的初级形式,用于对层次数据拟合方差成分模型,是普通线性模型向随机效应模型的一个扩展,可以考察各个层次因素的变异大小。

四、随机区组设计方差分析

下面我们就以案例的形式介绍随机区组设计方差分析在SPSS软件中的实现。

【案例】为探索丹参对肢体缺血再灌注损伤的影响,将30只纯种新西兰实验用大白兔,按窝别分为10个区组,每个区组3只大白兔随机接受3种不同的处理,即在送止血带前分别给予丹参2ml/kg、1ml/kg、生理盐水2ml/kg。并分别测定松止血带前后1小时血中白蛋白含量(g/l),并计算前后的差值记录入下表。三种处理的效果是否不同?(《卫生统计学》第6版,例8-2,page 127)

表1 三种干预处理后大白兔血中白蛋白减少量(g/l)

第一步,定义变量与录入数据

图1 定义变量。处理组赋值如下:1=丹参2ml/kg,2=丹参1ml/kg,3=生理盐水2ml/kg

图2 数据录入

第二步,SPSS操作过程如下:

Analyze----General Liner Model----Univariate----观察指标进入Dependent (因变量)----处理因素和区组因素进入Fixed Factors(自变量)----Model----Custom----Building Terms----Main effects----Factors & Covariates (将处理因素和区组因素选入)----OK

如图依次做出选择

图3 选择GLM模型的方差分析模块Univariate

图4 如图设置因变量、处理因素(固定因子)、区组因素(随机因子)

图5 设置模型,选择用户自定义(Custom)----主效应(Main effects)----Contiue

图6 设置处理因素两两比较的Post Hoc分析方法,选择最常用的LSD与SNK法

图7 设置选项,对主要统计量进行描述

所有设置完毕,单击OK。

第三步,主要结果解读。

Tests of Between-Subjects Effects

Dependent Variable: 蛋白质减少量 

a. MS(block)

b. MS(Error)

结果解读:这是方差分析典型结果报告表格。不同处理因素计算的F值=32.636,p值=0.000<0.05,则认为三种不同的干预效应不同,差异有统计学意义。据此只能判断三者不同,但到底是两两各不同,还是只有两个不同,不得而知,需要进行Post Hoc分析。区组因素计算的F值=0.824,p值=0.602>0.05,则不能认为10个区组的总体均数不同。

Multiple Comparisons

Dependent Variable: 蛋白质减少量 

Based on observed means.

The error term is Mean Square(Error) = .210.

*. The mean difference is significant at the .05 level.

 

由此多重比较的结果可知,生理盐水2ml/kg组的疗效与丹参2ml/kg组及丹参1ml/kg组有统计学差异(p=0.000);丹参2ml/kg组与丹参1ml/kg组疗效无统计学差异(p=0.069)。

至此,随机区组设计资料的方差分析在SPSS软件中实现讲解完毕。

最后留下一个问题给大家思考:

试验设计时为什么一些研究要考虑所谓的区组因素?

欢迎在“评论”区留下您的答案,参与讨论,一起进步!答对者将获赠作者主编的《傻瓜统计学》一本。赶紧来开始头脑风暴吧~(答案下期揭晓,敬请期待)

笔者|周支瑞 ,复旦大学附属肿瘤医院放射治疗科在读博士。主要研究方向:恶性肿瘤放射治疗的放射生物学研究、恶性肿瘤放射治疗的循证医学研究、循证医学与meta分析方法学研究。熟练掌握循证医学及临床流行病学基本概念及各种类型系统评价制作过程,熟练运用系统评价及统计学相关软件。目前以第一作者、共同第一作者及合作作者发表SCI论文20余篇,以第一作者在中文核心期刊发表论文5篇,参编循证医学与统计学相关学术著作3部。业余时间担任丁香园网站循证医学讨论版版主,Journal of Thoracic Disease 杂志section editor,多本SCI杂志审稿人。

 

往期精彩文章

comments powered by Disqus

附件