微信直播

AME统计015|COX 回归的 SPSS 软件实现

Published at: 2015年第1卷第S1期

周支瑞
关键词:

编者按:上个月,AME 系列医学图书新成员《傻瓜统计学》掀起了一阵销售狂潮,为回馈读者,近期「AME 科研时间」将陆续推出《傻瓜统计学》主编之一周支瑞医生撰写的精彩统计学文章,下面先来一睹为快吧~

 

1.COX模型简介(读者可以忽略这部分)

1972年,英国统计学家 D. R. COX 提出了一种比例风险模型( Cox proportional hazard model),简称 COX 模型。它可以分析多种因素对生存时间的影响,而且允许有“截尾”存在。是生存分析中最重要的模型之一。COX 模型主要用于肿瘤和其它慢性病的预后因素分析,也可以用于一般的临床疗效评价和队列的病因探索。其基本结构为:

(1)。

 

h(t,X):t 时点上 m 个危险因素起作用时的风险率,即在时间 t 上的死亡率;h0(t):某时间 t 上当 m 个危险因素为 0 时的基准风险率;X=(X1, X2,…, Xm):与生存时间可能有关的自变量;β=(β1, β2,…, βm):COX 模型的回归系数。βj 与 h(t,X)之间有如下关系:①βj>0,则 Xj 取值越大,h(t,X)的值越大,表示病人死亡的风险率越大;②βj=0,则 Xj 取值对 h(t,X)无影响;③βj<0,则 Xj 取值越大,h(t,X)的值越小,表示病人死亡的风险率越小。

 

h(t)和 h0(t)成比例关系,比例系数是:

(2)。

故 COX 模型又称比例风险模型,将上式两边取自然对数,得:

(3)。

此式与多元线性回归模型非常类似,故有人称 COX 模型为 COX 回归。由此式可见βj 的含义是:在其他自变量不变前提下,自变量 Xj 改变一个单位,引起的死亡风险改变的自然对数值。

式(1)可改写为:

(4)。

相对危险度(RR)=expj(Xj2-Xj1),如 Xj 为二分类数据,则:RR=expj。RR 含义:在其他自变量保持不变前提下,自变量 Xj 改变一个单位,死亡风险比原水平改变 exp(j)倍。

Cox 回归模型的应用条件:①已知观察对象的生存时间;②已知观察对象在事先确定的观察时间内,其是否发生某事件的结果;③自变量可以是计量资料、计数资料或等级资料。④等比例风险(PH)。指在协变量的不同状态,病人的风险在不同的时间保持不变。如在研究的 10 年中,糖尿病人心脏病发作的可能性是非糖尿病人的 3 倍,无论在第 1 年,第 2 年…….等都如此。

 

2.案例

以下数据是一项关于胰脏癌手术中接受放射治疗是否会延长病人生存时间的研究的数据。该研究的终点为死亡,接受手术被定义为计算生存时间的起点。由于该研究是一项未经随机化的观察性研究,要正确估计术中接受放射治疗提高患者生存时间的效果,还需要考虑对其他因子的效果进行调整。数据的详细说明见表1。

表1 胰脏癌术中放疗效果研究数据说明

 

3.SPSS录入数据


图1 变量视图

 


图2 数据视图

 

4.SPSS操作过程

4.1 步骤1

分析→生存函数→COX回归,如图 3 所示。


图3 步骤1

 

4.2 步骤2

把时间变量、状态变量(需定义)及自变量选入相应的框中,如图 4 所示。所有复选框设置完毕之后单击“确定”输出结果。


图4 步骤2

 

4.3 步骤3

定义状态变量,如图 5 所示。


图5 步骤3

 

4.4 步骤4

定义分类协变量,如图 6 所示。因为 SPSS 默认将所有的自变量均视作连续性变量,如本例,不同胆管浸润程度赋值为 1、2、3、4,但各类别间的差距也是无法准确衡量的,按编码数值来分析实际上就是强行规定为等距,这可能会引入一些误差。此时,就必须将原始的多分类变量转化为数个哑变量,每个哑变量只代表某两个级别或若干个级别间的差异,这样得到的回归结果才能有实际意义。


图6 步骤4

 

4.5 步骤5

设置绘图选项,指定绘制生存函数图,同时按照步骤 4 定义的分类协变量绘制各组的生存函数图。如图 7 所示。


图7 步骤5

 

4.6 步骤6

 

做如下勾选,输出回归系数的反对数结果,即 RR 或 HR 值。如图 8 所示。

 


图8 步骤6

 

5.SPSS 计算结果及解读

 

5.1 软件给出了一个总例数、事件发生例数、删失例数以及缺失数据等信息。

 


图9 案例汇总表

 

5.2 给出了分类变量 ch 生成哑变量时的各分类水平频数和编码的对照变,按照默认设定,ch 将会使用最后一个分类作为参照水平。

 


图10 分类变量编码表

 

5.3 本例中当前模型与无效模型相比(Change From Previous Step),Chi-square=18.116,对应的P=0.034,因此可以认为当前模型要优于无效模型。“Overall (score)”对应的是比分检验的结果。

 


图11 模型系数的综合测试

 

5.4 软件给出了各自变量的回归系数的估计值 B,回归系数的标准误 SE,Wald 检验的值,自由度,P 值,回归系数的反对数 Exp(B)(比值比)及其 95% 可信区间。本例中除了术中放疗(TRT)的回归系数有统计学意义,其 P 值为 0.012,其他自变量的回归系数假设检验 P 值均大于 0.05。故可以认为术中放疗对比不放疗可降低胰腺癌患者的死亡风险,OR=0.441,95%CI(0.233,0836)。

图12 方程中变量的检验和估计值

 

5.5 所有患者的生存函数曲线,如图 13 所示。

 


图13 生存函数曲线

 

5.6 按照胰胆管浸润程度绘制生存曲线,如图 14 所示。

 


图14 按照胆管浸润程度分组生存函数曲线

 

参考文献

 

[1] 张文彤主编. SPSS 统计分析高级教程. 北京: 高等教育出版社, 2004.

 

笔者|周支瑞,复旦大学附属肿瘤医院放射治疗科在读博士生,AME 兼职 science editor。主要研究方向:恶性肿瘤放射治疗的放射生物学研究、恶性肿瘤放射治疗的循证医学研究、循证医学与meta分析方法学研究。目前以第一作者、共同第一作者及合作作者发表SCI论文20余篇,以第一作者在中文核心期刊发表论文6篇,参编循证医学与统计学相关学术著作三部(《实用循证医学方法学》第2版、《傻瓜统计学》,《高级meta分析方法学》即将出版)。业余时间担任丁香园网站循证医学讨论版版主,《Journal of Thoracic Disease》杂志的section editor,《Chinese Journal of Cancer Research》、《International Journal of Clinical Practice》等多本 SCI 杂志审稿人。

 

相关文章:

 

AME丛书之《傻瓜统计学》|沈亚星:大谎言、小谎言和统计学

AME新书预售|9.9元抢《傻瓜统计学》!通俗易懂讲统计,快乐实例搞科研

本文题图来自网络。

本文由「 AME 科研时间」首发,媒体转载请注明出处。让我们一起爱临床,爱科研,也爱听故事。

 

AME College 即将开课,现正火热报名中,名额有限,先到先得。欢迎点击链接,参与在线报名。http://wd.koudai.com/item.html?itemID=1453120521&p=-1

Doi:

10.3978/kysj.2014.1.991
comments powered by Disqus

附件