微信直播

AME统计014|二分类 Logistic 回归在 SPSS 软件中的实现

Published at: 2015年第1卷第S1期

周支瑞
关键词:

编者按:上个月,AME 系列医学图书新成员《傻瓜统计学》掀起了一阵销售狂潮,为回馈读者,近期「AME 科研时间」将陆续推出《傻瓜统计学》主编之一周支瑞医生撰写的精彩统计学文章,下面先来一睹为快吧~

 

1.Logistic 回归模型概述(读者可以忽略这部分)

Logistic 回归模型是一种概率模型,它是以某一事件发生与否的概率 P 为因变量,以影响P的因素为自变量建立的回归模型,分析某事件发生的概率与自变量之间的关系,是一种非线性回归模型。适用于因变量为二项或多项分类(有序、无序)的资料。利用 logistic 分布函数的特征来表示在自变量 X 的作用下出现阳性结果或阴性结果的概率。阳性结果的概率记为:P( y=1|x),(在 X 作用下,出现 Y=1 的概率);出现阴性结果的概率为: Q( y=0|x), 其中:P+Q=1。当模型中只有一个自变量时,logistic 回归模型可表示为:

 

(1)

(2)

 

式中,为回归线的截距,是与 X 有关的参数,称回归系数。

 

(3)

 

注意:P/Q 称为事件的优势,在流行病学中称为比值(odds)。

当有多个 X 时,logistic 回归模型:

 

(4)

(5)

 

式中,为截距,(j=1,2,…,p), 称偏回归系数。

 

(6)

 

式(1)或式(4)称为 logistic 回归模型。

 

(1)

(4)

 

经 logit 变换:将 S 型曲线转化为直线

 

(3)

(6)

 

对式(3)和式(6)两边取自然对数得:

 

(7)

(8)

 

记为:

 



 

经 logit 变换之后,这就是线性回归方程,说明:(1)把 ln(P/Q) 称为 logit(P) 变换;(2) P/Q 称为事件的优势,在流行病学中称为比值(odds)。因此,优势的对数值与影响因素之间呈线性关系。

 

2.一些基本概念

 

2.1 优势比

 

如前所述,人们常把出现某种结果的概率与不出现的概率之比称为比值(odds),即 odds=P/1-P。两个比值之比称为比值比(odds ratio,也翻译成优势比,简称 OR)。比如,暴露组的优势(比值)与非暴露组的优势(比值)之比,称优势比(比值比)(OR),在这里 OR 用于说明暴露某因素引起疾病或死亡的危险度大小。

 

(9)

(10)

 

P(1):X 取 1 时,暴露组结局事件发生概率;P(0):X 取 0 时,非暴露组结局事件发生概率

 


 

2.2 Logistic 回归系数的意义

 

由上式可见:或者的意义是:在其他自变量固定不变的情况下,自变量的暴露水平每改变一个测量单位所引起的优势比(OR)自然对数的改变量,或引起优势比为增加前的倍。从数学上讲,beta 和多元回归中系数的解释并无不同,代表 x 改变一个单位时 logit(P) 的平均改变量,但由于 odds 的自然对数即 logit(P) 变换,因此 logistic 回归模型中的系数和OR有着直接的变换关系,使得 logistic 回归系数有了更加贴近实际的解释,从而也使得该模型得到了广泛的应用。

 

3.案例

 

Hosmer 和 Lemeshow 于 1989 年研究了低出生体重婴儿的影响因素,数据如下图。结果变量为是否娩出低出生体重儿(变量名为 LOW,1=低出生体重, 即婴儿出生体重 < 2500 g; 0=非低出生体重),考虑的影响因素(自变量)有:产妇妊娠前体重(lwt,磅);产妇年龄(age,岁);产妇在妊娠期间是否吸烟(smoke,0=未吸、1=吸烟);本次妊娠前早产次数(ptl,次);是否患有高血压(ht,0=未患、1=患病);子宫对按摩、催产素等刺激引起收缩的应激性(ui,0=无、1=有);妊娠前三个月社区医生随访次数(ftv,次);种族(race,1=白人、2=黑人、3=其他民族)。

 

4.SPSS 录入数据

 


图1 变量视图

 


图2 数据视图

 

5.SPSS 操作过程

5.1 步骤1

分析→回归→二元 Logistics 回归,如图 3 所示。


图3 步骤1

 

5.2 步骤2

 

把因变量及自变量选入相应的框中,如图 4 所示。

 


图4 步骤2

 

5.3 步骤3

设置哑变量,如图 5 所示。因为 SPSS 默认将所有的自变量均视作连续性变量,如本例,不同种族的变量赋值为 1、2、3,但这仅仅是一个代码而已,并不意味着白人、 黑人、 其他民族间存在大小次序的关系, 即并非代表产妇娩出低出生体重儿概率的 logit(P) 会按此顺序线性增加或减少。即使是有序多分类变量,比如疾病分期分为早、 中、 晚三个期别,各类别间的差距也是无法准确衡量的,按编码数值来分析实际上就是强行规定为等距,这可能会引入更大的误差。此时,就必须将原始的多分类变量转化为数个哑变量,每个哑变量只代表某两个级别或若干个级别间的差异,这样得到的回归结果才能有实际意义。


图5 步骤3(设置哑变量)

 

5.4 步骤4

 

做如下勾选,输出回归系数的反对数结果,即 OR 值。

 


图6 步骤4

 

6.SPSS计算结果解读

 

6.1 哑变量设置结果如下图所示

 

Categorical Variables Codings

 

Frequency

Parameter coding

(1)

(2)

种族

白人

96

1.000

.000

黑人

26

.000

1.000

其他种族

67

.000

.000

图7 哑变量设置结果

 

6.2 预测分类结果

 

随后将开始进行模型拟合,首先给出的是模型不含任何自变量,而只有常数项(即无效模型)时的输出结果,故标题为:“Block 0: Beginning Block”。图 8 显示了预测分类结果。由于模型中仅含有常数项,将所有的观察对象均判断为正常出生体重儿的正确率为 68.8%,实际上就是全部研究对象的正常体重概率 130/189=0.688。也就是说,由于当前样本中大部分新生儿为正常出生体重,因此当模型中不包含任何自变量时,样本中所有观察对象皆被预测为正常出生体重,总的预测准确率为 68.8%。

 


图8 预测分类结果

 

6.3 模型汇总结果

 

基于无效模型,现在开始在分析中引入自变量,由于本例尚未涉及变量筛选的问题,因此标题为 “Block 1: Method = Enter”。 图 9 输出了当前模型的 -2log(似然值)和两个伪决定系数(“伪”表示与线性回归模型中的决定系数相区别)Cox & Snell R Square 和 Nagelkerke R Square。后两者从不同角度反映了当前模型中自变量解释了反应变量的变异占反应变量总变异的比例。但对于 Logistic 回归而言,通常看到的模型伪决定系数的大小不像线性回归模型中的决定系数那么大。

 

Model Summary

Step

-2 Log likelihood

Cox & Snell R Square

Nagelkerke R Square

1

209.243a

.126

.177

a. Estimation terminated at iteration number 5 because parameter estimates changed by less than .001.

图9 模型汇总结果

 

6.4引入变量后的预测分类结果

 

这是应用引入自变量后重新拟合的回归模型进行预测的分类表格,P>0.5判断为出现阳性结果(正常体重)。此处 189 例研究对象中共有 138(122+16)例判断正确,总正确率为 73.0%。

 


图10 引入变量后的预测分类结果

 

6.5回归方程中的变量(最重要的结果)

 

输出了模型中各自变量的偏回归系数及其标准误、Wald 卡方、自由度、P 值、OR 值及可信区间(即表格最右侧的 Exp(B))。由此可以得出结论,纳入回归方程的变量除 age 以外,其余回归系数均有统计学意义。孕妇体重每增加一个单位则出生低体重婴儿的风险降低(OR=0.985,P=0.020)。白种人叫其他人种更倾向于生育低体重婴儿(OR=0.388,P=0.026),黑种人叫其他人种并未见统计学差异(OR=1.311,P=0.611)。妊娠期间吸烟的产妇较不吸烟的产妇生育低体重婴儿的风险增加(OR=2.898,P=0.006)。患有妊娠期高血压的产妇生育低体重婴儿的风险较无妊高症产妇增加(OR=5.310,P=0.014)。这里的常数项无实际意义。

 

 

参考文献

 

[1] 张文彤主编. SPSS统计分析高级教程. 北京: 高等教育出版社, 2004.

 

笔者|周支瑞,复旦大学附属肿瘤医院放射治疗科在读博士生,AME 兼职 science editor。主要研究方向:恶性肿瘤放射治疗的放射生物学研究、恶性肿瘤放射治疗的循证医学研究、循证医学与meta分析方法学研究。目前以第一作者、共同第一作者及合作作者发表SCI论文20余篇,以第一作者在中文核心期刊发表论文6篇,参编循证医学与统计学相关学术著作三部(《实用循证医学方法学》第2版、《傻瓜统计学》,《高级meta分析方法学》即将出版)。业余时间担任丁香园网站循证医学讨论版版主,《Journal of Thoracic Disease》杂志的section editor,《Chinese Journal of Cancer Research》、《International Journal of Clinical Practice》等多本 SCI 杂志审稿人。

 

本文题图来自网络。

 

本文由「 AME 科研时间」首发,媒体转载请注明出处。让我们一起爱临床,爱科研,也爱听故事。

 

 

AME College 即将开课,现正火热报名中,名额有限,先到先得。欢迎点击链接,参与在线报名http://wd.koudai.com/item.html?itemID=1453120521&p=-1

Doi:

10.3978/kysj.2014.1.987
comments powered by Disqus

附件