微信直播

对倾向指数评分(PSM)的一点拙见

Published at: 2015年第1卷第S1期

陈文森
关键词:

在亚特兰大的飞机上,有个长时间的飞行。座位不太好,像三明治中的“火腿”一样被夹在中间,还是“巨无霸型”的。之前看到很多人在飞机上写东东,我常常心里暗笑,睡睡多好,像我这种“特困生”(似乎整天觉不够睡,被封了一个“特困生”)似乎很难理解。去年从塞拉利昂回来,飞行旅途30多个钟头,因为疲劳一路睡的东倒西歪。不过这次似乎有点“反常”,可能隔壁老美大叔的鼾声确实震撼灵魂,没有丝毫的睡意,一路在飞机上像“巴神”(巴洛特利,意大利著名足球运动员,只是脑袋略不够用)一样思考人生,也终于有时间可以还还债了。

在2014年秋冬做了一篇 MRSA(耐甲氧西林金黄色葡萄球菌)与 MSSA(甲氧西林敏感金黄色葡萄球菌)HAP(医院获得性肺炎)的预后分析。采用的是 PSM(倾向指数评分)的方式,让 case 和 control 更 balance,之后一直想写一个关于 PSM(倾向指数评分)的感想,表达一点心得体会和拙见。

在临床资料或者随访信息的获取上,由于在病例组和对照组间分布的多个协变量并不均衡可比,则这些协变量可能对病人的预后指标有较大影响。我们理想情况下都希望处理组(或者 case group)和比较组(control group)有很好的 balance,像左手和右手。但实际工作中,往往是不对称的,甚至是协变量偏差较多,这时候你增大样本量,只会让偏倚越来越大。传统的处理方式,可以选择分层,多因素回归等,但控制混杂的效果受纳入模型或分层因子相关。为更好的降低协变量分布不平衡对生存分析结果的影响,临床研究可以采用 PSM 方法(倾向指数匹配法)对协变量的分布进行了进一步均衡。PSM 的思想是将所有的协变量统一看成一个变量,用多因素 logistic 回归的方式进行计算 pscore 分值并设置几个 block(默认5个 block,可以根据情况调整),当然也有其他的方法,如马氏距离法等,选用最多还是 logit 方法。经过 PSM 匹配后,在处理组和非处理组达到协变量均衡可比(如所示),即相当于“事后随机化”过程。(在高版本后就无须如此复杂,一步到位了)。之前支瑞和志德兄弟已经做了很好的铺垫。我之前选用的软件 stata11,需要分两步走,psmatch 后,根据 score 去选择,再进一步做平衡性检验。高版本 stata 软件(e.g:version13)可以 psmatch 2一步到位了,SPSS 的高版本也可以做了,只不过略复杂一些。我自己整理的案例:

 

首先 安装psmatch2 命令

ssc install psmatch2

 

psmatch2 treated(实验组变量) 控制变量,outcome(你所研究的变量)

具体的可参加 stata help psmatch2

* 倾向分匹配

* 假定y是因变量

 

* 个案的随机排序

gen tmp = runiform() 

sort tmp

 

* 匹配方法:nearest neighbor matching within caliper

psmatch2 case apacheii age fmc.. , logit neighbor(1) common caliper(.05) ties

* 检验两者的平衡性

pstest 协变量 

* 剔除不显著的变量

* 或 pscore命令来检验平衡性

pscore treat 协变量, pscore(newpscore) logit

 

* 平衡性的图示

Psgraph

 

STATA对话框程序

 psmatch2 TREAT AGE EDUC BLACK HISP HISP MARR RE74 RE75 U74, outcome(RE78) logit neighbor(1) ate caliper(0.5)

 

psmatch2 case apacheii age sex hospitalduration operation comorbidities clinical_features preantibiotics, outcome(st) logit neighbor(1) ai(1) ate noreplace trim(0) caliper(0.05)

如果大家不太熟悉也可以看看 Vivien W. Chen Krissy Zeiser 的课件。

经过匹配后证实,能够让两组达到更为理想的平衡状态。

图1. 匹配前后病例组和对照组平衡性

 

最终的样本量跟“alpha”、“beta”、卡钳设置等因素有关。我期望越精确越好,1:1,各个因素都很好的 match。但过于严格的限制,带来的牺牲就是筛选出的匹配 case、control 会少,从而诱导了二类错误的产生,降低关联分析的把握度。而研究设计本身,样本量是需要定量预估的。这就形成了优化的范围,在达到样本量的要求内,有足够的把握度保证下,病例组和对照组吻合的越好,可信度也高。不过有时候看运气了,像 jco,jama 上面发表的结果总是一致的,总是很喜大普奔的,但实际上悲剧确实总是离我们自己很近,比如这篇结果:

图2. PSM匹配前后预后比较

 

匹配前“阳光灿烂”(positive,positive,positive),匹配后“九阴真经”(negative,negative,negative),一缕青烟从头上升起。

当然,也有其他的方法能够让两组均衡可比,PSM 还是存在很多的缺陷,筛选对照的精准定位还需要进一步策略优化,也没有什么方法是非常完美的。从流行病学设计角度出发,我们总是尽可能去控制混杂,展现最可信的结论,从这点上,PSM 还是给我们提供了很好的思路。也期望各位科研大神,在面对自己课题时,都能有自己满意的结果,心理犯嘀咕的去 AME 亦塾进修一下,或者来南京鸡鸣寺看樱花顺便烧个香吧。

 

参考文献

  1. Kang S, Han I, Kim S, Lee YH, Kim MB, Kim HS. Outcomes after flap reconstruction for extremity soft tissue sarcoma: a case-control study using propensity score analysis. Eur J Surg Oncol. 2014 ;40(9):1101-8. 
  2. Two distinct Do-Not-Resuscitate protocols leaving less to the imagination: an observational study using propensity score matching. Chen YY, Gordon NH, Connors AF, et al. BMC Med. 2014 ;12:146

 

作者简介

陈文森

  • 就职业江苏省人民医院感染管理办公室,主攻医院感染流行病学,临床流行病学研究。
  • 2016年美国医疗保健流行病协会(SHEA)国际感控大使
  • 中华预防医学会医院感染控制分会青年委员会副主任委员
  • 中国医院协会医院感染管理专业委员会青年委员
  • 江苏省医院协会医院感染管理委员会委员
  • AME沙龙委员
  • 担任《J Thorac Dis》和《临床与病理杂志》等学术期刊的section editor,发表论文20余篇。主编和主译论著4部。
  • 2014年12月~1015年2月受国家卫生计生委委派,赴西非塞拉利昂进行埃博拉出血热公共卫生师资培训。

doi:10.3978/kysj.2014.1.1884

comments powered by Disqus

附件