微信直播

使用IRAP2.2.0软件计算校正混杂因素的单个或多个危险因素人群归因风险

Published at: 2015年第1卷第S1期

蔡东平 , 贺永明
关键词:

蔡东平1  贺永明2 

1. 苏州高新区狮山街道社区卫生服务中心

2. 苏州大学附属第一医院心内科

一、IRAP软件

1. 软件简介

人群归因风险(PopulationAttributable Risk,PAR)是用于统计分析人群暴露于某种/些危险因素,发生疾病或死亡时归因于这种/些危险因素的权重指标。在国内外已发表的一些论文中,存在多种危险因素的PAR值之和超过100%,这与导致疾病的所有因素权重之和应为100%的逻辑不符,提示既往在分析多因素的PAR时,统计方法上并未考虑到多因素合并存在时多因素之间的交互作用。疾病危险因素被发现得越来越多,在统计分析时,疾病危险因素的模型越是完善,其PAR值之和越接近100%。

美国国立癌症研究所(US NationalCancer Institute)在上世纪90年代开发了IRAP(interactive risk attributable program)程序,在回归分析基础上计算各因素的归因风险(Attributable Risk,AR)及其95%置信区间(95% Confidence Intervals, 95%CI),可以矫正多因素合并存在时多因素之间的交互作用,确保多因素的AR值之和不超过100%。

目前在美国国立癌症研究所网站上(https://dceg.cancer.gov/tools/risk-assessment/irap)可以下载到的是2002年发布的IRAP 2.2.0版,为一个自解压文件。解压后得到四个文件(见图1),其中irap.exe是用来进行计算的程序。

图1. IRAP软件内含文件列表

2. 运行软件

2.1 直接运行

在Windows XP和Windows7(32位)操作系统下,可以直接运行irap.exe。在IRAP界面上红色标记的字母为用于组合按键的字母。如打开“File”菜单,使用Alt+F组合键进行操作。

2.2 DOS模拟器内运行

在Windows 7(64位)及以后更新版本的操作系统下,irap.exe不能直接运行,需要安装DOS模拟器。本文采用的是DOSBox,在网站www.dosbox.com下载安装程序。

图2. DOSBox界面

DOSBox并不能直接识别irap.exe所在的文件夹,需要先将IRAP的文件夹加载到DOSBox的虚拟盘符下(参见图2)。为方便每次运行irap.exe,在开始→所有程序→DOSBox-0.74菜单下找到并点击“DOSBox0.74 Options”,打开配置文件“dosbox-0.74.conf”,在该配置文件的最后一段[autoexec]下逐行添加启动irap.exe需要用到的命令(参见图3)。

图3. DOSBox配置文件

完成以上配置后,每次点击DOSBox即可自动进入IRAP程序。不管是直接运行还是在DOS模拟器内运行,IRAP的界面(图4)是一致的。

图4. IRAP2.2.0界面

二、实例解析

《Risk burdensof modifiable risk factors incorporating lipoprotein (a) and low serum albuminconcentrations for first incident acute myocardial infarction》以多种危险因素联合矫正的logistic回归模型,通过DOSBox运行IRAP软件计算了在各年龄层男女人群,脂蛋白(a)、低血浆白蛋白水平2项新危险因素及高血压、糖尿病、缺血性脑病史、出血性脑病史、吸烟、饮酒、高密度脂蛋白胆固醇、低密度脂蛋白胆固醇、体重指数、甘油三脂、肌酐等11项传统危险因素,在首次发生的急性心肌梗死事件中各因素单独的人群归因风险(Population Attributable Risk, PAR),及多种危险因素组合下的总人群归因风险(PARsCombination for risk factors)。

1. 文件准备

实例中使用多因素充分矫正的logistic回归分析模型涉及到17个变量(参见图5及表1),其中连续变量Lp(a)、BMI、LDL-C、HDL-C、TG、ALB和Cr均被五分位分层,转变为等级变量后进入模型。

图5. logistic回归分析使用数据

表1. 变量及赋值意义

1.1 待分析的数据文件(Data File)

IRAP不能直接调用Excel格式的数据,需要把Excel文件中除去变量名称这一行以外的内容以txt格式的文本文件保存,内容之间不含任何空格或制表符(参见图6)。从左往右一共17个数字,一行数字代表一个病例17个变量对应的具体值。IRAP正确解读Data File,需要用到变量定义文件(Library)。

图6. Data File示意图

1.2 变量定义文件(Library)

Library的作用是让IRAP正确识别各个变量在Data File中的位置。“New library”(图7)即从头开始定义变量属性,使界面恢复到初始状态(图4)。按键Alt+V→A或直接按组合键Alt+A,进入添加变量(AddVariables)设定界面,如图8。各个变量的属性设定在IRAP主界面中“Variables”栏内显示(参见图9)。

图7. 操作library

图8. 添加变量设定界面

Name为变量名称,IRAP不区分字母大小写,Group与group实为同一变量名;Column为该变量在Data File中起始于第几位数值;Length为Data File中数值的占用字符位数(实例中所有变量占用字符位数均是1);Precision标记小数位数,如某变量值为1.234,其Length为4,Precision为3(实例中所有变量为整数,此处留空);Missing Code标记缺失值,可以留空,也可以按照生成Data File时约定的缺失值代码填写;Number为第几个变量,默认跟随录入变量顺序递增。

图9. 变量定义一览

将所有变量定义完成后,如图9所示,为了再次运行IRAP计算时能快速调用,可以把定义方案(library)保存(Alt+F→S)下来。如图10中所示,默认保存位置是“Directory:C:\ ”,此处的C盘并非电脑直接管理的C盘,而是加载IRAP文件夹后对应的虚拟C盘,所以变量定义文件默认保存在IRAP文件夹。保存为文件时可以不带扩展名,调用(Alt+F→O)时需输入与保存时一致的文件名(参见图11)。

图10. Library文件保存界面

图11.Library文件引入界面

将准备好的数据文件与irap.exe、变量定义文件保存在同一个文件夹内(如图12方框内所示),接下来就进入了PAR的计算过程。

图12. 文件准备

2. 运行

2.1 选择研究类型

默认类型为SimpleRandom Sampling,更改后的类型名称在IRAP主界面下方的Model后的“()”内显示。实例中的研究为横断面研究,在研究类型选择上选择Cross-sectional Analysis(Alt+M→S→r,参见图13)。

图13. 研究类型选择界面

2.2 定义PAR计算模型

  • 2.2.1 单因素PAR的计算

    进入Definemodel界面(Alt+M→D,如图14),对各变量进行PAR计算模型设定。“Case indicator”代表分组情况的变量,实例中对应的是group,序号为1;研究的危险因素是脂蛋白(a),“Exposures”对应lpa,序号为12。录入时不必输入完整的变量名称,可以用变量的序号代替变量实际名称,确认后在主界面下方公显示出完整的变量名称(如图15)。

图14. 定义模型输入界面

图15. 单因素PAR计算模型

  • 2.2.2 合并多因素PAR的计算

    进入Definemodel界面,在“Exposures”一栏输入合并多因素的各自变量序号,“Confounders”一栏输入各混杂因素的序号(图16)。确认后的到如图17所示的PAR计算模型。

图16. 合并多因素PAR计算模型的录入

图17. 合并多因素PAR计算模型

  • 2.2.3 亚组人群中合并多因素PAR的计算

    进入Definemodel界面,在“Exposures”一栏输入合并多因素的各自变量序号,“Confounders”一栏输入各混杂因素的序号,“By variables”一栏输入分亚组的变量序号。确认后的到如图18所示的PAR计算模型。

图18. 亚组人群中合并多因素PAR的计算模型

2.3 运行计算

完成以上设定后,准备运行PAR计算模型。按Alt+M→R或Alt+R组合键,弹出PAR计算前最后一个交互界面(如图19),在此填写Data File的完整名称和计算结果保存文件名称,选中“Partial attributable risk estimates”。建议Report file处填写扩展名,方便用文本程序打开查看。

图19. RunModel界面

3. 结果解析

按照以上建立的三种PAR计算模型,分别运行后在IRAP文件夹中共得到三个计算结果文件(参见图20)。

图20. 计算结果文件

结果文件(Reportfile)第一部分内容是产生文件中列出计算结果的环境,如原始数据文件(Input data file)、研究类型(Sampling method)、PAR计算模型(含暴露因素、混杂因素、亚组分组等设置情况)和Library中的设置介绍。

第二部分内容为IRAP计算后的结果,按照ByVariables的亚组分组给出暴露因素在每一亚组人群的总PAR(Total Attributable Risk for all combinations of exposures: …),其中又按照暴露因素的暴露强度不同组合情况,给出每一种组合下的PAR计算结果(Partial Attributable Risk for the following exposure pattern: …),所有组合PAR之和等于总PAR。计算结果文件的结构详见表2。

查看举例的单因素PAR的计算结果文件“R1LPA.TXT”(参见图21),“TotalAttributable Risk for all combinations of exposures: AR : 0.3003, 95%CI (0.2398, 0.3609) …Partial Attributable Risk for the following exposure pattern:lpa= 2   AR : 0.0953, 95%CI( 0.0611,0.1294)…”,为实例文中表2中Lp(a)未经矫正时单一因素PAR(95%CI)的数据来源,以保留小数点后两位小数给出。

图21. 单因素PAR的计算结果文件部分内容

表2. 2.2.3 亚组人群中合并多因素PAR的计算结果文件解析

图22. 多因素PAR的计算结果文件部分内容

查看举例的合并多因素PAR的计算结果文件“R5.TXT”,其中“TotalAttributable Risk for all combinations of exposures: AR : 0.7597, 95%CI (0.7095, 0.8099)”(参见图22),是实例表3(参见图23.a)所列出Smoking,LDL-C,BMI,HDL-C&DM各并多因素PAR(95%CI)的数据来源。

查看举例的亚组人群中合并多因素PAR的计算结果文件“R5SA.TXT”,sex=2 &age=1时“Total Attributable Risk for all combinations of exposures: AR:0.8281, 95%CI( 0.7321, 0.9241)”(见表2),是实例表3(参见图23.b)所列出Smoking,LDL-C,BMI,HDL-C&DM各并多因素在Men_age1亚组中PAR(95%CI)的数据来源。

论文中PAR(95%CI)数据以保留小数点后两位小数给出。

图23.a 实例表3部分内容

图23.b 实例表3部分内容

实例文章中表3给出了男女不同年龄阶段各种多因素组合时的多因素总PAR(95%CI),其背后对应的是多次的调整PAR计算模型。如图16中所示建立PAR计算模型界面,在暴露因素(Exposures)一栏按统计模型输入各种因素,混杂因素(Confounders)一栏输入各矫正因素,亚组分组(By variables)一栏输入“sex age”。暴露因素(Exposures)越多,IRAP程序的计算时间花费越长,计算时间将随变量增加而延长,长时可至数小时,IRAP程序出现“假死”,需要耐心等待计算结果。

4. 合并多因素时的PAR与多个单因素PAR之和

当研究合并多个因素的PAR时,应将多个因素同时作为暴露因素,并非分别计算单因素PAR之后求和。尽管在PAR计算模型设立时无论将因素划分为暴露因素还是混杂因素,只要纳入的因素一致,logistic回归分析的计算结果仍然一致,但对PAR的计算结果有影响。例如上文2.2.2中合并多因素PAR的计算模型与该模型中涉及到的多个单因素PAR之和就有明显不同,暴露于合并5种因素时的AR值为75.97%,而如果将这5种因素的AR值分别计算后求和则为100.30%(详见表3),与所有因素AR值之和应为100%的逻辑不符。

表3. 合并多因素时的PAR与多个单因素PAR之和结果比较

三、总结

IRAP基于回归分析计算危险因素的归因风险度,即可以计算单个危险因素的归因风险,也可以计算多个因素合并存在时多因素的归因风险,因素越全,其结果越接近100%。尽管该程序运行于DOS环境,但不失为计算人群归因风险的有利工具。

comments powered by Disqus

附件