微信直播

谈大数据时代的重症医学研究的发展

Published at: 2015年第1卷第S1期

章仲恒 1
1 浙江省金华市中心医院
关键词:

【编者按】这是大数据的时代。笔者说,优秀的数据库你越研究越停不下来。你是否也有此感悟呢?

本人研究重症医学大数据已有些时日,于是就想写点东西谈谈我自己的体会。

何谓大数据?其实这个很简单,它是信息化时代的自然产物。比如我们在超市办会员卡,我们登记了性别、年龄、职业等许多基线信息;每次刷卡都会记录我们的消费日期时间,购买的物品等信息。假设我们每周消费两次,一年就是100次,如果每天有1000人参与了这家超市的消费,那一年就可以产生10万次数据。不要小看这些数据,正确统计分析能带给超市以巨大的盈利。比如我们可以分析哪个时段什么样的人最容易购买牙膏,那相关的牙膏广告就可以在这一时段进行。这是商业运转中一个简单的科学故事。

重症医学领域同样如此,现在大部分医院都已经信息化,一个患者入院后将产生海量的数据信息,特别是ICU里面的数据,我们可以记录每小时生命体征、尿量等,这个在病房是做不到的,也是ICU人有责任和义务利用好这批数据。这样的数据我们称之为“high-resolution”data。常常听人抱怨说急诊ICU没什么东西好研究的,整天为课题晋升的事情伤脑筋;其实很多好的点子就可以从这海量的数据信息中筛选研究。

国内的ICU还没有开始重视这样的大数据,似乎也很少看到相关的研究发表。但在国际上已经研究了好多年。最为著名的应该是MIMIC-2数据库了。我本人研究这个数据库有些时日,也发表了一些劣作,其中一篇是关于尿量与危重症患者预后的关系的文章,发表在Journal of nephrology上面(Zhang Z, Xu X, Ni H, Deng H. J Nephrol. 2014Feb;27(1):65-71.);另一篇是关于钙离子与危重症患者预后的文章,发表在国人普便认为是垃圾场的Plos one上面(Zhang Z, Xu X, Ni H, Deng H. PLoS One. 2014 Apr15;9(4):e95204.)。你会发现这样优秀的数据库你越研究越停不下来,令人回味无穷。

下面我免费给MIMIC-2数据库做一点广告(http://physionet.org/mimic2/)。这个数据库由哈佛大学附属医院(iseral beth deconess medical center)提供ICU病人信息,从2001年起开始纳入病人,到2008年已经有超过30000个患者的数据信息;目前MIMIC-2最新版本是2.6版,如果以后继续更新的话能数据量将继续增加。当然复杂的数据处理工作是由麻省理工学院负责完成。其他不用多看,光看这两个主办单位就是高大上的组合。里面的数据信息可以说是兼收并蓄,自从你开住院单,病人挂号开始,所有的数据都在里面了。包括基本生命体征的时时变化、开据的医嘱、化验检查、病程记录等等。当然这些是原始采集的数据,里面还有一些计算后获得的数据比如SOFA评分等一些重症评分。这个数据库是免费为公众开放使用的,只需要参加一个关于伦理的考试,并获得授权(如图就是我获得的授权许可证书);数据库下载过来大约有80G的大小,但这个过程一点也不难。接着就是数据提取和处理,这时会碰到一点点困难,需要学习一点计算机技术,比如SQL语言、虚拟机的使用(数据库)等等,这时要想到有了这个技术,你未来就可以写无数篇SCI文章的可能,那么这点困难又算得了什么呢?有了理想的指引,行动也就自然变得简单了。最后是找些简单的指标作为切入点,比如我之前做的关于尿量或者钙离子这样的简单的东西;因为这是你刚刚开始尝试做这样的研究,太过复杂的指标遇到困难也就多一些,有时还会打击你的积极性。谁如果有这方面的兴趣,那我们可为志同道合,欢迎拍砖交流,以利于祖国重症医学的发展。

另外我想谈的是关于重症医学证据等级的问题。毋庸置疑,目前RCT是绝对的主流,位于循证医学金字塔的顶端。但是屡屡的挫败使我们不得不反思这条道路是不是走得通,这点在ICU的研究中特别突出,就在几个月前就有许多同道在讨论关于NEJM上发表的几篇阴性的大型RCT研究。像EGDT这样经典的东西到头来竟然没有能够提高生存。我不敢说RCT是不对的,但其中是有问题的。我曾经在Journal of clinical epidemiology上发表过一篇文章(Zhang Z, Ni H, Xu X. J Clin Epidemiol. 2014 Apr 25. pii: S0895-4356(14)00082-1. doi:10.1016/j.jclinepi.2014.02.018.),部分谈到了这个问题。RCT首先不是在realworld setting中开展的,比如你用了很严格纳入/排除标准,比如RCT只有在北上广一些大医院才能开展。记得前面提到的NEJM中的那三篇文章,有一篇中每个参与的ICU一年贡献才2例患者,这不禁让人有些惊讶,那其他的患者呢?于是我做了个大胆的假设,其实我们用RCT去指导实践是用从10%的患者中得出的结论去治疗另外90%的病人;而且像北上广这样的大医院能够获益的措施在中国广大的小医院是并不一定有效。这其实就是我要强调的real word setting的重要性。也就是说病人就是我们平时怎么处理和治疗的病人,没有被RCT所筛选“美化”。这其实就是大数据所要处理和研究的问题。

另外还有一些好的大数据库,比如美国国家心脏、肺、血液研究院(NHLBI)的上百个研究的数据库,其中就包括很多ARDSnet的研究,这个数据库我目前正在研究当中,我不敢说有多少经验,待结果出来再来汇报。

我一大早起来突发感想,于是写下了这些不成熟的东西,希望能有志同道合的同志一起研究,建立中国自己的危重症医学的大数据库。我相信这是未来发展的一个主流方向。或许那是一个RCT与大数据研究并存的时代。

笔者| 章仲恒,Journal of Thoracic Disease学术沙龙委员,现在浙江省金华市中心医院ICU工作,主要开展重症医学临床及流行病学研究,以第一作者发表SCI论文30多篇。

本原创文章由科研时间首要发布,媒体转载请注明出处。欢迎大家关注【科研时间】,和我们一起爱临床,爱科研,也爱听故事。

Doi:10.3978/kysj.2014.1.50

comments powered by Disqus

附件