微信直播

如何将实验室检查数据变废为宝:从一篇Clin Chem上的文章谈起

Published at: 2015年第1卷第S1期

胡志德
关键词:

每个病人在其接受诊疗的过程中,都或多或少会产生一些实验室检查数据,比如三大常规、肝肾功能等。这些数据通常会连同病人的基本信息(住院号、性别、年龄等)一起储存在检验科的信息系统中。在部分人看来,这些数据都是常规指标,可能无法用于发表论文,但事实并非如此,利用检验科信息系统的数据发表论文的案例数不胜数,其中不乏高档次的论文。下面笔者向大家简要介绍一篇近期发表在Clin Chem上的基于检验科信息系统的数据挖掘类论文[1]Clin Chem是美国临床化学协会(AACC)的官方杂志,2016年影响因子为8.008分,是检验医学领域的顶级杂志。

脑脊液总蛋白是最常见的实验室检查项目之一,其在中枢神经系统疾病的诊断与鉴别诊断中具有不言而喻的价值。在临床工作中,对脑脊液总蛋白临床意义的解读在很大程度上受参考范围影响。虽然很多时候检验科出具的报告单都会写上每个检查项目的参考范围,但是据笔者所知,很多实验室使用的参考范围要不就是由仪器厂家提供,要不就是摘抄自文献,或者直接采用约定俗成的参考范围。换而言之,很多项目的参考范围并未进行严格论证。在理想状况下,要制定一个实验室标志物的参考范围,需要遵循CLSI的C28-A2文件,其大致流程就是:找一定量的健康人群,然后检测每个人的该实验室标志物水平。如果该标志物在健康人群中呈正态分布,则取均数±1.96倍标准差分别作为参考范围的下限和上限;若呈偏态分布,则取Q2.5至Q97.5分别作为参考范围的下限和上限。当然,这里所谓的“理想状况”,现实中很难做到。拿脑脊液总蛋白的参考范围来说,如果要科学规范地制定其参考范围,首先就应该找一定数量的健康个体,然后采集其脑脊液,检测总蛋白浓度。问题在于:脑脊液的采集本身是有创的,还有感染等风险,因此很难募集到健康志愿者来参与制定脑脊液总蛋白参考范围。到目前为止,还没有学者能够严格按照CLSI的C28-A2文件来制定脑脊液总蛋白的参考范围,临床上沿用的参考范围多来自一些小样本、设计不太严谨的研究。在此大背景下,这篇文章的作者就在考虑:能否用已有的实验室检查数据来制定脑脊液总蛋白参考范围呢?这一观点看起来似乎不科学,毕竟在医院接受了脑脊液总蛋白检查的个体多罹患各种疾病,无法代表真正的“健康人群”。话虽如此,但如果对接受“脑脊液总蛋白”检查的患者进行筛选,就可以找出一些相对健康的个体用于制定参考范围。很明显,在医院接受脑脊液总蛋白检查的个体中,有一部分是相对健康的人群:有的患者可能因为龋齿去医院拔牙,但是其向主治医生反映自己经常不明原因头痛,因此主管医生决定进行脑脊液检查和影像学检查。最终的检查结果显示脑脊液无明显异常,且在对所有的病史、体征、影像学、病理学结果进行分析后,未发现该患者合并可以导致脑脊液异常的疾病,比如结核性脑膜炎、格林巴利综合症、阿尔茨海默症等。因此,该病人理论上讲可以视为健康人,其结果可以用于脑脊液总蛋白参考范围的制定。

有的读者可能会持反对意见,认为这种做法极不严谨。这种说法有一定道理,但笔者是这样认识这个问题的:蜀中无大将,廖化当先锋,科学研究很多时候不可能出现“理想状况”,因此为了追求“理想状况”而抛弃“次理想状况”是极不明智的。当前全世界还没有科学家能募集到一批健康个体用于建立脑脊液总蛋白的参考范围,难道这个参考范围就应该一直空缺吗?基于相对健康的患者建立的参考范围虽然有缺陷,但是也算是一种科学证据,总比依照经验建立的参考范围可靠些。再则,如果回顾既往关于脑脊液总蛋白参考范围的研究,基本都存在样本量小、研究对象特征不明等缺陷,这些研究还不是照样指导临床。科学嘛,本身允许有缺陷。其实,任何研究都是有缺陷的,就看读者站在什么高度、用什么标准来审视论文。

这篇文章的通讯作者是McCudden CR,加拿大渥太华大学的一名检验科医生,其研究方向就是数据挖据。想到这个idea后,McCudden CR就开始到检验科的信息管理系统中去采集数据。很幸运的是,在过去的20年里,渥太华大学检验科的设备虽然几经更换,但所有的脑脊液总蛋白检查结果都储存在了检验科的信息系统中。McCudden CR设计了一整套科学的方案来收集相对健康的个体:首先,根据脑脊液常规检查结果排除一些患者,包括脑脊液白细胞计数高于5×106/L、红细胞计数高于50×106/L、葡萄糖浓度小于2.5mmol/L的患者;然后将受试者的年龄限制在18周岁以上;最后根据脑脊液总蛋白检查结果对患者进行分类:如果患者脑脊液总蛋白结果低于0.45g/L,则直接纳入研究;如果其水平高于0.45g/L,但其病历中并无支持脑脊液总蛋白增高的诊断或并发症,则患者也被纳入研究。经过这些标准的层层筛选并排除重复病例后,作者共募集到了6068例病人,这些病人基本可以视为“健康个体”。有了如此空前的样本后,剩下的事情就是玩统计学游戏了。

不得不承认的是,医学统计学是一门极端重要的科学,是每个医学科技工作者闯荡江湖的必备武器。笔者经常在国际杂志上看见一些“以统计取胜”的论文,这类论文的典型特点是:新颖性和临床价值一般,但是作者的统计学处理十分巧妙,给人以耳目一新的感觉。以这篇文章为例,如果作者获取到这6068个病人之后采用常规统计学方法进行处理:先画个直方图,做个正态检验,然后计算出均值和标准差,计算出参考范围,最后按照性别和年龄分为若干个组进行讨论,建立若干个年龄和性别特异性的参考范围。这样的文章估计也能发表,但是可能不会登上Clin Chem这种十分挑剔的杂志。纵观顶级杂志的临床研究类论文,都有一个共同特点:有难以企及的技术难度,同时作者还能整出一些令审稿人耳目一新的东西,比如提出一个跨学科的概念、造一个拉风的新词语、用一个很巧妙的方法,如此等等,其目的就是要让审稿人感到“不明觉厉”。科研嘛,说到底就是玩套路,和审稿人斗智斗勇。这篇文章已经有了一个“难以企及的技术难度”,即样本量大,但这可能还不足以攻克Clin Chem。接下来,作者就开始在统计学上玩花样,力争能“忽悠”审稿人。

这篇文章的统计学处理十分巧妙,因为作者建立参考范围的方法与众不同。他采用了一种名为分位数回归(quantile regression)的统计学方法[2]。笔者过去阅读过一些关于参考范围的论文,虽然谈不上专家,但对该领域的统计学套路还算有一定了解:多数人在制定参考范围时会采用均数±1.96倍标准差(正态分布)或Q2.5至Q97.5(偏态分布)来制定参考范围,这在统计学处理上是最低的层级,这类研究约占90%;少数统计学水平比较厚实的学者会利用线性回归方程建立年龄特异性的参考范围,算是较高的层级,这类研究约占10%。用分位数回归的方法建立参考范围,笔者还是第一次见到。通过查阅相关资料后笔者对该法才算是有了一个较为肤浅的认识:传统的年龄特异性的参考范围基本原理是线性回归模型,这个模型考虑的是应变量的均值受自变量的影响。问题在于,应变量的每一个“节段”受自变量的影响程度是不同的,也就是说,用一个回归系数去反映自变量和应变量的关系可能会显得有些“粗燥”。分位数回归则就不同的,充分考虑了应变量的每个“节段”受自变量的影响程度,其得到的结果要相对准确些。

有了分位数回归这样一个杀手锏,剩下的事情就是在这种统计学方法的周边填充各种常规统计学方法,以增强研究的科学逻辑了。作者的数据分析思路相对简单:首先,用流程图的方式描述了病例收集过程,这招叫“一图抵万言”,是科研老鸟很熟悉的常规套路;然后用简单的线性相关分析了一下年龄和总蛋白的关系,再用自己的杀手锏分位数回归确定了年龄特异性的参考范围,并将结果汇总成一张表格;紧接着,简单比较男女之间的总蛋白差异、不同仪器的检测结果的差异(该实验室先后使用了三台仪器),发现男性脑脊液总蛋白比女性高出0.06g/L左右,三台仪器之间的结果的差异虽然具有统计学意义,但是差异不是很大;最后分析了脑脊液蛋白与一些常规检查结果(如肌酐、血清总蛋白、脑脊液红细胞、脑脊液白细胞)的关系,发现总蛋白与这些指标(血清总蛋白除外)的相关性有统计学意义,但是相关系数很小。这些就是论文的主要内容,在Clin Chem这种强调工作量的杂志上,略微有些单薄,但不得不承认:数据展示思路简洁明了,能够有效地支撑作者的研究假说和结论。

如前所述,Clin Chem是检验领域的顶级杂志,这本杂志上刊登的多数论文都是造价不菲:不是前瞻性的基于普通人群的队列研究,就是设计良好的诊断准确性试验,或者是革命性的检验技术。而这篇造价低廉的文章居然能这样堂而皇之地登上Clin Chem,可以给我们很多启示:

第一,常规实验室数据看似废物,如果寻找到巧妙的切入点,辅之以严谨的科研设计和统计学分析,废物也能变成宝。这让我想起了J Lab Precis Med主编Giuseppe Lippi教授2009年利用实验室信息系统的数据发表在Arch Pathol Lab Med上的一篇论文[3]。在那篇文章中,Lippi从检验科的信息系统中导出了三千余名未经选择的门诊病人的数据,分析了红细胞体积分布宽度(RDW)与炎症指标(C反应蛋白、血沉)的关系,最终得出一个结论:RDW是一个炎症指标。这篇文章虽然简短,且只发表在不到3分的杂志上,却被广为引用。截至2017年,该文在谷歌学术中已经被引用了500余次。回到Clin Chem这篇文章中,笔者看完文章后就一直在思考一个问题:为什么Clin Chem这种富有学术声誉的杂志会接收这篇造价低廉的文章?我认为理由是:第一,这篇文章有临床价值,脑脊液总蛋白参考范围的制定有一定的临床价值,以往关于参考范围的研究有一定缺陷需要改进;第二,研究有别人难以企及的独门绝技:六千多的样本量。虽然采用“病人”来制定参考范围不是很科学,这是文章的瑕疵之一,但是总体上瑕不掩瑜。再则,既往所有的类似研究都存在受试对象选择不严谨的问题,严肃的审稿人显然不会以如此low的理由来拒绝这篇稿件。第三,设计合理:纳入排除标准巧妙、统计学处理方法的当。第四,论文撰写流畅(详见后述)。实际上,上述四点也是科学论文的四大要素:临床价值、新颖性、科学性、论文可读性。

第二,深厚的学术积淀是发表高水平论文的必要条件。学术积淀可以体现在很多个层面,首先体现在文献阅读量上。只有通过广泛的文献阅读才能挖掘到这样一个具有较高临床价值的话题,在做完研究后才能将自己的研究成果与既往的类似研究进行比较,客观分析自己的研究的优势和劣势;其次,学术积淀还体现在对科研设计和统计学分析的理解和把握、对科研相关软件的使用上。比如,作者采用的是分位数回归这一统计学方法,如果作者对统计学没很深刻的理解,显然是无法将这种方法应用到实战中的。值得一提的是,McCudden CR前段时间曾在J Lab Precis Med上发表过一篇关于如何从实验室信息系统(LIS)中提取数据并用于研究的文章[4],其中提到了从LIS中提取数据最常用的方法是SQL语言。因此笔者推测Clin Chem上这篇文章的数据很有可能是通过SQL语言提取的,从文章中的图片和作者的描述来看,统计学处理和绘图应该是出自R之手。试想,如果作者不会SQL语言和R语言,这篇文章就无从谈起。临床科研嘛,很多时候都是在拼装备,拼技能。

第三、论文撰写能力十分重要。曾有学者感叹,科学研究“七分靠做,三分靠写”。对于一篇成功的论文,写和做的贡献比例各是多少?笔者不得而知,但是写作的重要性显然是不容忽视的。写作是对论文进行“保值”,一项临床价值和科研设计值5分的研究,可能因为写作不好结果只能发表在1分的杂志上。当然,如果一项研究临床价值和科研设计只值1分,那怎么写也是不太可能登上5分的。就这篇文章的写作而言,笔者认为用“字字珠玑,句句经典,段段精辟”来形容论文的谋篇布局并不为过。特别是其讨论部分,与同类研究进行了较为全面的比较,深刻解释了其中存在差异的原因,同时也从正反两方面对自己的研究进行了剖析。此外,淋漓尽致地展示了“有统计学意义不一定有专业意义,有专业意义不一定具有统计学意义”的思维。总体而言,该文简洁明了,让读者阅读之后有一种豁然开朗的感觉。具体文字层面上的内容,各位读者可以自行参阅原文。限于版权问题,本文就不贴出原文的图表和文字了。

参考文献

  1. McCudden CR, Brooks J, Figurado P, et al. Cerebrospinal Fluid Total Protein Reference Intervals Derived from 20 Years of Patient Data[J]. Clin Chem, 2017.

  2. Wei Y, Pere A, Koenker R, et al. Quantile regression methods for reference growth charts[J]. Stat Med, 2006; 25(8):1369-1382.

  3. Lippi G, Targher G, Montagnana M, et al. Relation between red blood cell distribution width and inflammatory biomarkers in a large cohort of unselected outpatients[J]. Arch Pathol Lab Med, 2009; 133(4):628-632.

  4. McCudden CR, Henderson MPA. Laboratory information system data extraction and re-use: opportunities and challenges[J]. J Lab Precis Med, 2017; 2(10).

微店精品

扫描二维码,进入购买页面

《聪明统计学》

comments powered by Disqus

附件