微信直播

AME统计016|Cox回归、logistic回归、多元线性回归到底有啥区别

Published at: 2015年第1卷第S1期

胡志德
关键词:

在医学研究中,最常用的多元回归分析方法有三种:Cox 回归、logistic 回归和多元线性回归。由于这三种回归的数学原理相对复杂,而且彼此之间还有一些相似之处,经常令数学基础本来就很薄弱的医学生感到头皮发麻。

这三种回归到底有什么区别和联系呢?笔者拟谈一下自己的看法。

在了解三大回归之前,我们需要把话题说远一点,先从临床研究的类型说起。如前所述,医学研究大致分为观察性研究、干预性研究和诊断性试验。当然,也有人主张将诊断性试验列入观察性研究,我个人觉得不是太妥当。我们先了解下观察性研究和干预性研究的区别。

总体而言,干预性研究与观察性研究的主要区别在于干预措施是否是主动给予的。比如某研究的内容是比较倍他乐克和缬沙坦治疗高血压的效果,如果研究者是预先招募了研究对象,然后将研究对象随机分组,分别给予倍他乐克和缬沙坦,这样的研究就是干预性研究。如果研究者并没有随机分组这道手续,没有主动去干预患者的治疗,而是前瞻性地,或者回顾性地去观察和比较接受倍他乐克治疗的患者与接受了缬沙坦治疗的患者高血压控制率的区别,那这项研究就属于观察性研究。

那么观察性研究和干预性研究在论证强度上有什么区别呢?毫不夸张地说:区别很大,二者的论证强度不在一个等级上。

在干预性研究中,研究者可以采用随机分配的方式将研究对象分配到不同的干预组,并且采用盲法的方式进行干预和评估效果,这样就能有效避免混杂因素的干扰。换而言之,实验组和对照组的临床特征基本上是一致的,如果两组的试验效应之间有区别,那当然就应该归结为试验因素的问题了。比如在上述比较倍他乐克和缬沙坦治疗高血压的研究中,假定我们观察到倍他乐克治疗高血压的疗效(有效率)明显高于缬沙坦组(P<0.05),那我们就可以很确定地说:两组患者高血压正常率上的差异完全是由于治疗措施不同引起的,倍他乐克的降压效果比缬沙坦好。

如果是观察性研究,问题就不是这么简单了。因为接受倍他乐克治疗的患者和接受缬沙坦治疗的患者之间可能不具备可比性。比如接受倍他乐克治疗的患者可能更年轻、经常运动,而接受缬沙坦治疗的患者则以老年患者居多、不怎么运动。研究者观察到了倍他乐克组的降压效果要好于缬沙坦组,会不会是由于年龄、或者运动习惯造成的呢?年龄、运动习惯在这里就叫混杂因素。

如何克服混在因素呢?一般可以配对的方式克服,但是这种方式并不常用,因为如果配对因素是一个,倒是很好找配对对象,但是如果配对因素是十个,恐怕就很难找配对的对象了。在临床研究中,处理混杂因素最常用的方法还是从统计学上去进行校正。校正混杂因素的方法有多元线性回归、logistic 回归和 Cox 风险比例模型,根据试验设计的不同,采用的校正方法不同。

我们以胆固醇与冠心病的关系来说明各个回归的区别和联系。

假定我们研究的内容是:胆固醇增高是否会引起冠心病?这个研究题目显然是无法通过干预性研究进行论证的,总不可能往病人体内打胆固醇,然后观察病人发生冠心病的情况吧。所以只能通过观察性研究的方式去进行论证。假定我们开展的研究是前瞻性队列研究,预先募集了 10000 名研究对象,这 10000 名研究对象在进入研究的时候都没有冠心病。然后我们检测了其血清的胆固醇水平,同时还检测了血糖、甘油三酯、Lip(a)等指标,记录了研究对象的人口学特征,如年龄、性别、种族等。然后我们队研究对象进行随访,每年进行一次检查,确认研究对象是否患冠心病。二十年后,我们发现:当初胆固醇浓度很高的研究对象,发生冠心病的概率也很高,且在统计上证明了胆固醇增高和冠心病之间有联系。但问题在于,我们还不敢理直气壮地认为胆固醇增高会引起冠心病。因为胆固醇增高组和降低组患者在进入研究时的特征是完全不同的,胆固醇增高组的研究对象甘油三酯和血糖水平也高,那您说胆固醇增高组和降低组在冠心病发病风险上的差异到底胆固醇引起的呢,还是甘油三酯、血糖等因素引起的呢?这是一个观察性研究,混在因素(甘油三酯、血糖)在所难免。此时,我们需要做一个多元回归分析——混杂因素,排除混杂因素的干扰,明确胆固醇到底对冠心病有没有独立的贡献。这里请注意“独立”二字。所谓独立就是指:但是即使排除血糖、甘油三酯等混杂因素的影响,胆固醇仍然与冠心病有关。

做多元回归分析是校正混杂因素最常用的手段,所谓“多元”,对应的英文为 multivariable,实际上可以理解为多参数,就是把所有的混杂因素放在一个方程中,用方程来判断每个因素是不是对结局变量(是否患冠心病)有独立的贡献。此时,选择什么样的回归模型就是十分重要了,需要了解三种多元回归的区别。

我们首先来看多远线性回归,这种回归方法与 Cox 回归、logistic 回归有个明显不同的地方就在于,其应变量(Y)是连续变量。而上述胆固醇与冠心病的研究中,自变量(Y)是二分类变量(是否发生冠心病),显然就不适合了。如果我们将研究内容改为:哪些因素可以影响胆固醇浓度,那就可以采用多元线性回归了,因为这里的应变量(Y)是胆固醇浓度,是一个连续变量。

三大回归中,多元线性回归最容易与 Cox 回归和 logistic 回归进行鉴别。而 Cox 回归和 Logistic 回归的鉴别就令很多同行感到棘手了。如果翻开统计学教科书,二者的数学表达式极为相似,那他们的区别是什么呢?

其实二者有很多区别,但是对于我们医药人士而言,只需要把握住一个区别就可以了。如果您不仅仅关心结局变量是否发生,而且还关心其何时发生,那就选择 Cox 回归。反之,如果仅仅是关心结局变量是否发生,不关心其何时发生,那就选择 logistic 回归。

假如是队列研究,一般采用 Cox 回归,因为研究者毕竟会关心结局什么时候发生;如果是横断面研究,结局和暴露因素之间没有“时间差”,那当然就只能用 logistic 回归了。当然,队列研究也可以用 logistic 回归,除非研究者不关心结局何时发生。如果是病例对照研究,一般也采用 logistic 回归。

其实大多数队列研究其实都是很关心结局何时发生的,比如上述冠心病与胆固醇的研究:对于一个个体而言,随访第一年就得冠心病和随访第二十年才得冠心病对个体的影响显然是不同的。当然,有的研究虽然属于队列研究,但是时间问题不是关键问题,也可以采用 logistic 回归。比如:研究是否患糖尿病对ICU病人住院期间死亡率的影响。在这个研究中,患者何时死亡就不是问题的关键了。因为按照常理,住院三天死亡和住院十天死亡之间没有太本质的区别。

笔者|胡志德,AME 学术沙龙委员、Section Editor (Systematic Review and Meta-analysis),《傻瓜统计学》主编之一,以第一作者或通讯作者身份发表SCI论文十余篇。

 

新书巡讲

由胡志德、周支瑞医生担任主编的《傻瓜统计学》开启了“七城新书巡讲”——上海、徐州、江阴、无锡、常州、苏州、南京,是否有你所在的城市呢?上海、徐州两站已圆满落幕,还有五站,精彩继续~提前报名免费赠书,讲座期间还有抽奖哦!赶紧点击文末【链接】来报名吧!http://eqxiu.com/s/oQM1waAq#rd

日程安排:AME《傻瓜统计学》巡讲暨签售会开场!

Doi:

10.3978/kysj.2014.1.1020

 

comments powered by Disqus

附件