微信直播

AME统计013|多重线性回归的 SPSS 软件实现

Published at: 2015年第1卷第S1期

周支瑞
关键词:

编者按:上个月,AME 系列医学图书新成员《傻瓜统计学》掀起了一阵销售狂潮,为回馈读者,近期「AME 科研时间」将陆续推出《傻瓜统计学》主编之一周支瑞医生撰写的精彩统计学文章,下面先来一睹为快吧~

 

1. 模型简介

本文所要讨论的问题是如何同时考虑多个因素对同一观测结果的影响,这一观测结果是需要满足正态分布的计量资料。此时,因变量(Dependent Variable)只有一个,也称为反应变量或响应变量(Response Variable),常用 Y 表示。自变量(Independent Variable),也称解释变量(Explanatory Variable)可有多个,p 个自变量用向量形式表示为(X1,X2,X3,...,Xp)。设有 n 例观察对象,第 i 例(i=1,2,3,…,n)的一组观察值为(Yi, Xi1,Xi2,Xi3,…,Xip)。当因变量与自变量组之间存在多重线性关系时,应用多重线性回归模型可以很好地刻画它们之间的关系。

由上式可以看出,实测值由两部分组成,第一部分为其估计值,用表示,即给定各自变量取值时,因变量Y的估计值,表示能由自变量决定的部分。为残差,是应变量实测值 Y 与其估计值之间的差值,表示不由自变量决定的部分。它对于判断当前建立的模型是否成立,是否还有别的变量需要引入模型等一系列问题是非常有价值的。式中为常数项,它表示当所有自变量取值均为 0 时因变量的估计值,为偏回归系数,表示当其他自变量取值固定时(所以在回归系数前加上“偏”字),自变量 Xi 每改变一个单位时,的变化量。

 

2. 案例

某医生收集了 97 名成年男性的资料,并分别测得其血常规和血生化指标,原始数据如下表,试以血红蛋白为因变量,其他变量为自变量进行线性回归分析。

 

3. SPSS 录入数据

变量赋值如下:

X1:性别

女=0 ;男=1

X2:年龄

青年= 1,中年= 2,老年= 3

X3:红细胞数

不用赋值

X4:白细胞数

不用赋值

X5:血小板

不用赋值

X6:总胆红素

不用赋值

X7:直接胆红素

不用赋值

Y:血红蛋白

不用赋值

 


图1 变量视图


图2 数据视图

 

4. SPSS 操作过程

分析→回归→线性


图3 操作步骤1

 


图4 操作步骤2

 


图5 操作步骤3

 

5. SPSS 计算结果解读

5.1 模型中移入/移去的变量

共纳入“年龄量化”、“红细胞”、“性别量化”三个变量。“年龄量化”为有序分类变量,“红细胞”为连续型变量,“性别量化”为二分类变量。自变量进入模型的方法为“Enter”法,即“进入法”,为默认选项,意即所有选入自变量框的候选变量均进入模型,不涉及变量筛选的问题。推荐选择此方法,变量筛选可考虑通过单因素分析联合临床专业知识判断进行,比如首先通过临床专业知识确定潜在需要纳入回归方程的变量,然后通过单因素筛选出 p 值小于 0.2 的变量最终纳入回归方程。

Variables Entered/Removeda

Model

Variables Entered

Variables Removed

Method

1

年龄量化, 红细胞, 性别量化b

.

Enter

a. Dependent Variable: 血红蛋白Y

b. All requested variables entered.

图6 模型中移入/移去的变量

 

5.2 模型汇总结果

“R”,“R Square”, “Adjusted R Square”, “Std. Error of the Estimate”分别代表“复相关系数”,“决定系数”,“校正的决定系数”,“剩余标准差”。R值越大代表线性回归关系越密切。R Square 表示因变量 Y 的总变异可由回归模型中自变量解释的那部分所占的比例,R Square 越大越好。根据样本含量及模型中自变量的个数即可计算Adjusted R Square,该值越大,模型拟合效果越好。

Model Summary

Model

R

R Square

Adjusted R Square

Std. Error of the Estimate

1

.827a

.684

.674

14.125

a. Predictors: (Constant), 年龄量化, 红细胞, 性别量化

图7 模型汇总结果

 

5.3 Anova 结果

因变量 Y 的总变异可分为两个部分:①回归平方和,表示因变量变异种由回归模型中所包含的自变量所能解释的部分;②残差平方和,表示因变量的变异种没有被回归模型所包含的变量解释的部分。本例中 F=67.125,p=0.000。说明至少一个自变量的回归系数不为 0,所建立的回归模型有统计学意义。

 


图8 Anova 结果

 

5.4 回归系数表(最重要的结果)

 

表格中给出了这个回归方程中常数项(Constant)、红细胞、性别量化、年龄量化的偏回归系数(Unstandardized Coefficients)及对应的标准误,分别为:23.967、22.467、8.164、2.510,其中常数项表示当自变量取值为 0 时,因变量的取值,本例中没有实际意义。为了消除原始变量单位不同或者量纲不同的影响,软件同时计算了标准化的偏回归系数(Standardized Coefficients),分别为:0.781、0.165、0.067。回归系数绝对值越大说明对回归模型的贡献越大。同时对回归系数进行了假设检验,并给出了相应的 p 值,分别为:0.007、0.000、0.008、0.260,其中常数项的回归系数没有实际意义,其他 p 值表明红细胞、性别的回归系数有统计学意义。“Collinearity Statistics”提供了共线性诊断两个参数。容忍度(Tolerance)越小,多重共线性越严重,一般认为容忍度小于 0.1 时,存在严重的共线性。方差膨胀因子(VIF)即容忍度的倒数,一般认为其不应大于 5。本例中,可以认为不存在明显的共线性问题。

 


图9 回归系数表(最重要的结果)

 

5.5 共线性诊断

 

该图进一步给出了特征根(Eigenvalue):对模型中常数项及所有自变量计算主成分,如果自变量间存在较强的线性相关关系,则前面的几个主成分数值较大,而后面的几个主成分较小,甚至接近 0。事实上,本例中单从特征根这个结果上并不好判断共线性的问题。下面我们再看看条件指数(Condition Index):其等于最大的主成分与当前主成分的比值的算术平方根。所以第一个主成分相对应的条件指数总为 1。同样,如果几个条件指数较大,比如大于 30,则提示存在多重共线性。本例中,从条件指数这个结果中并未见明显的共线性。我们再看看变异构成(Variance Proportions):回归模型中各项(包括常数项)的变异被各主成分所能解释的比例,换句话说,即各主成分对模型中各项的贡献。如果某个主成分对两个或多个自变量的贡献均较大(如大于0.5),说明这几个自变量间存在一定程度的共线性。本例中并未出现这种情况。综合图 9 与图 10 共线性诊断的各项参数,并未检测到明显的共线性问题。本例也提醒我们共线性的诊断要从多个维度去综合判断。


图10 共线性诊断

 

参考文献

 

[1] 张文彤主编. SPSS统计分析高级教程. 北京: 高等教育出版社, 2004.

 

笔者|周支瑞,复旦大学附属肿瘤医院放射治疗科在读博士生,AME兼职science editor。主要研究方向:恶性肿瘤放射治疗的放射生物学研究、恶性肿瘤放射治疗的循证医学研究、循证医学与meta分析方法学研究。目前以第一作者、共同第一作者及合作作者发表SCI论文20余篇,以第一作者在中文核心期刊发表论文6篇,参编循证医学与统计学相关学术著作三部(《实用循证医学方法学》第2版、《傻瓜统计学》、《高级meta分析方法学》即将出版)。业余时间担任丁香园网站循证医学讨论版版主,《Journal of Thoracic Disease》杂志的section editor,《Chinese Journal of Cancer Research》、《International Journal of Clinical Practice》等多本SCI杂志审稿人。

 

本文题图来自网络。

 

本文由「 AME 科研时间」首发,媒体转载请注明出处。让我们一起爱临床,爱科研,也爱听故事。

 

AME College 即将开课,现正火热报名中,名额有限,先到先得。欢迎点击链接,参与在线报名。http://wd.koudai.com/item.html?itemID=1453120521&p=-1

Doi:

10.3978/kysj.2014.1.970
comments powered by Disqus

附件