微信直播

如何利用公用数据库开展临床肿瘤方面的研究——从JCO上的一篇文章谈起

Published at: 2015年第1卷第S1期

李潇 , 范博 , 邹青
关键词:

李潇1,范博2,邹青1

江苏省肿瘤医院泌尿外科

大连医科大学附属第二医院泌尿外科

Journal of Clinical Oncology(JCO),由美国临床肿瘤学会自1983年起出版,是肿瘤领域权威杂志。2016年影响因子(IF)高达24.008,对于很多研究人员而言,IF 10分以上的杂志即是难以企及的高度,而对于IF 24分的杂志更是望尘莫及。现实中,绝大多数研究人员经费有限,并且限于临床病例或样本的数量和质量,无法开展时间长、花费多的研究。因此难以进行深入的临床研究,从而难以发出高水平的文章。

但是,除了一些难以开展的技术或者尚未发现的检测指标外,临床研究的关注点往往相似。文章发表于这样的高分杂志真的是难于上青天吗?此外,发表于高分杂志的临床文章是否也是有迹可循呢?带着这样的疑问,笔者拟以2016年刊登于JCO上(2016; 34(24): 2835-42)的一篇临床研究为例,谈谈这篇高分临床文章的研究“套路”,或许能够给读者以思维的启发。

一、研究背景简介及思路分析

前列腺癌(PCa)国内发病率逐年增高,很多患者被检测出来时已经处于晚期。PCa一旦出现转移,患者预后往往较差,近年来越来越多的研究关注转移性前列腺癌(mPCa)的治疗,目前mPCa的系统性治疗成为一大研究热点。以往较多的回顾性研究主要探索前列腺切除术对于mPCa预后的影响,而关于外照射放疗(RT)在mPCa中的研究较少。既往研究显示:RT在局部晚期非转移性PCa患者治疗中具有重要价值,并且在淋巴结阳性PCa患者中与生存期延长相关。该研究主要探索在传统雄激素剥夺治疗(ADT)的基础上,加上RT后对于mPCa患者预后的影响,课题较为新颖。

研究者主要使用美国国家癌症数据库(National Cancer Database, NCDB)数据,该数据库始于1988年美国外科医生学会与美国癌症协会的联合质量改善计划,是以医院为基础的癌症登记系统。NCDB涵盖了全美约70%的新发肿瘤患者的数据,截止2016年,已经累计达34,000,000癌症患者数据(约为SEER数据库的4倍),使其成为世界上最大的临床癌症登记数据库。为了促进癌症研究,自2013年起可通过申请流程成为美国外科医师学会癌症委员会(CoC)认证的癌症计划的研究者,进而可获得NCDB数据库的公用共享子集,即参与用户文件(Participant User File, PUF)。具体获取方式参照PUF文件说明。每年更新并发布的PUF使得使用NCDB发表的研究逐渐增多(2007年11篇,至2016年超过200篇)。

NCDB数据库内容包括人口学特征(年龄、性别、种族、保险类型等)、合并症、肿瘤及其特征、患者生存预后情况,以及包括手术、RT、化疗等在内的首程治疗情况。具体内容可参见2017年JAMA Oncol上的文章:Using the National Cancer Database for Outcomes Research:A Review. JAMA Oncol. 2017 Feb 23. doi: 10.1001/jamaoncol.2016.6905.

类似的数据库还有美国癌症研究所的SEER数据库、WHO死亡数据库,以及各种针对不同病种的数据库等,这些数据库各具特色。

传统临床预后研究的“套路”相对固定:首先,根据治疗方式分组比较;随后,利用Kaplan-Meier生存曲线,分析不同治疗方式对患者预后的影响;还可利用单因素和多因素Cox回归分析,探索影响患者预后的因素。往往这一套下来,一篇文章统计分析部分已经成型,但是本文研究者不拘泥于基础分析方式,利用有限的数据得到最为全面的结果,这也是该文章另一大亮点。

临床文章研究“套路”图解

二、研究特色以及统计方法简析

该研究探索mPCa患者接受ADT联合和不联合前列腺RT的OS,虽然课题设计较新颖,但是在RT已经得到广泛开展的今天,单从新颖性角度文章可能不足以发表于JCO这样肿瘤领域的权威杂志。但是,该研究能够成功发表,自然有其亮点,原因笔者主要归纳如下:

第一、充分利用公用数据库优势。本文研究者利用NCDB数据库,共纳入2004-2012年间确诊的6382 例mPCa患者,其中538名接受了前列腺放疗。样本量相当大,超过国内任何单中心或者多中心研究的样本量,具有较强的统计学效力。并且,中位随访时间为5.1年,具有较强的说服力。

第二、综合运用多种统计方法,分析严谨。研究者开始也是循规蹈矩的做了多组比较、Kaplan-Meier生存曲线,以及Cox风险比例模型。大部分研究也是截止于此,而如果这样,文章一般只能发表于2-3分的杂志,甚至更低。但是作者综合运用各种“高级”统计方法,如倾向得分匹配分析、序贯界标分析、根据不同协变量的亚组分析、根据PCa特异性因素进行递归分割分析,并且根据RT剂量进行亚组分析。利用以上种种方法,规避数据上的缺陷,从而得到最为充分和精确的结论。抛开前面常见的统计方法,后续的统计应用是本研究的“点睛之笔”,使得文章大大增色。首先,使用倾向得分匹配分析,基于倾向得分(来自年龄、年限、种族、合并症、PSA、Gleason评分、T和N分期、设备、保险状况和化疗等)完成一对一匹配后进行分析,从而消除混杂变量对结果的干扰。随后,考虑到潜在的偏倚倾向于那些具有更多有利基线预测指标的RT患者,研究者在从诊断开始至少存活≥1 年、≥3年和≥5年的患者中进行序贯界标分析。并且,根据预先确定了5个协变量(年龄、PSA 水平、Gleason评分、T分期和N分期)进行亚组分析,以在不同亚组中得到更为精确的结果。进一步的,考虑到疾病负荷,研究者根据现有的前列腺癌疾病特异性因素(PSA 水平,Gleason评分、T分期和N 分期)进行递归分割分析,以将患者进行预后分层,并在每个分层中都评价前列腺RT的效应。此外,考虑到接受了前列腺RT的患者可能广泛地代表了两种mPCa患者群,即改善肿瘤结局为目的的接受较高RT治疗剂量的患者,以及以姑息和控制局部症状为目的的接受较低治疗剂量的患者。因此,研究者将患者分层为接受剂量≥65Gy者和接受剂量<65Gy者,分别探索接受较高RT治疗剂量和较低RT治疗剂量的患者与接受前列腺切除术联合ADT的患者的OS结果。通过以上一系列研究,研究者尽可能排除干扰因素,尽可能的发掘数据“潜能”。至于每种统计学方法的详细介绍、具体运用和操作,在此不再赘述,感兴趣的读者可参考相关书籍或参考资料。

第三、论文撰写规范,结论准确。文章思路清晰,统计分析环环相扣,虽然图表众多,但是读者阅读起来毫不感觉杂乱无章。很多研究者在撰写论文时,面对大量的图表不知该如何选择与排版,该文章是一个很好的参考标准。统计分析由浅入深,随之结果部分也逐渐深入,从而得到更进一步的结论。此外,很多研究者研究结论下得欠妥,并且结论表述不清,容易让人产生误解。而该研究尽可能得到准确的结论。例如,通过亚组分析,研究者得出前列腺RT和生存期延长的相关性在Gleason评分≤8(vs 9-10;相互作用P=0.009),以及T1-3(vs T4;相互作用P = 0.009)的量级更强,并且在T4分期中95% CI为0.625-1.075,无统计学意义,可见在早期mPCA中RT对于生存期延长的效果更好。绝大多数研究者通过统计分析,可能仅能得出mPCA中RT与生存期延长相关,难以得到更进一步的结论。

三、研究设计优缺点

该文章优点上面已经大体总结,简要如下:一、充分利用公用数据库大样本优势;二、统计分析较为完善,运用多种“高级”统计方法;三、论文撰写思路简介明了,表达准确,写作精炼。

任何文章都不可能完美无缺,即使发表于JAMA、Lancet、NEJM级别的文章,也有需要完善之处。同样,该文章有些地方存在缺陷,有待进一步完善。

其一、难以避免公用数据库本身存在的问题。作为公用数据库,其质量不在自身控制范围之内,数据的准确性如果存在问题,则研究结果势必会受到影响。不像自己的数据库,数据质量如何心中有数。此外,该研究共纳入6382例mPCa患者,而接受了前列腺RT的患者仅有538名。应用倾向得分匹配分析后,仅537 名接受前列腺RT联合ADT的患者与537 名接受单纯ADT的患者匹配。虽然倾向得分匹配分析有其自身优势,但样本量的下降带来统计学效力的降低。可见,应用公用数据库的同时,难以避免其自身存在的缺陷,而通过更多的统计方法一定程度上降低这些缺陷的影响,不失为一种不错的选择。

其二、公用数据库纳入的数据异质性可能较大,比如可能纳入不同人种的数据。因此如果拿美国的数据库中分析得到的结论应用于中国人,则有可能不适用。因此,如有可能的话,应用公用数据库的结论最好再用自己的数据进行验证。这样即拥有大样本的优势,也防止因为数据库异质性问题存在的不准确性。例如,有的研究中用公用数据库建立的模型,后期需要用自己的数据库进行验证。同样道理,该文章中,作者如果能加上自己的数据,后面进行验证,则结果会更准确,更有说服力。但是,现实中,大部分研究人员自身不具备样本量充分的数据库,这种情况下只能像该研究这样单纯用公用数据库进行研究。

四、本研究的启示

纵观该研究,研究者运用NCDB公用数据库资源,多快好省的发表了高影响力文章。这并不是鼓励研究人员都去运用现成的数据库数据,而忽视自身登记、随访工作和数据库的建设。但是,该研究“套路”有很多值得学习的地方,对于很多临床研究者而言,有几点值得借鉴:

第一、关注研究热点,把握研究动态。高分临床文章大多数是跟着研究热点走,除非设计良好,长期进行的规范化研究,结果出来即使不是热点,也具有一定影响力。比如,高血压大样本的队列研究,发现血压不是控制低于140/90mmHg,而是以下某个标准更好,这样的研究肯定是可以发高分文章的。而绝大部分研究者不具备这样的条件,因此发高分文章往往需要赶热点。比如,积极关注指南变动或有争议的地方,早期应用自己的数据或者公用数据库进行验证,如果结果与现有的结论一致,则成为支持的有力证据;如果不一致,则可提出自己新的观点。总之,有了结果肯定是有临床意义的,而高分杂志往往青睐这样的文章。

第二、应用公用数据库的优势。很多研究人员自身单位样本量较小,用自身数据毫无优势,甚至难以进行统计分析。此时,就可以考虑应用公用数据库,目前国际上公用数据库较多,并且有的数据库限于某些特定病种,因此研究者可根据自身需要下载这些数据。部分数据库需要提交申请,或者需要缴纳费用,具体在此不细述。此外,当自己数据样本量较小时,可以考虑结合公用数据库数据进行分析,自己数据用作验证。

第三、应用多种统计学方法,论证充分。传统的统计方法,如多组比较、K-M生存曲线加Cox模型,这样的“三板斧”只能得到一般的结论,并且最多仅能保证文章能发SCI。而要想得到更精确和全面的结论,在有限的数据的基础上就需要借助多种统计学方法,本文中的研究可以说是一个“样板”。唯有借助“十八班武艺”,方可大展身手。

第四、文章的撰写是基本功。该研究统计方法多样,同样带来众多的结果。而通读全文发现并不难理解,作者在文章逻辑思路和表达上很清楚,这是很多研究者值得借鉴的地方。文章撰写是发表任何级别文章的基础,在行文之前理清思路和设计好提纲至关重要。

总之,通过以上分析可见,高分文章并非镜花水月,在自身条件有限的条件下也可进行一定有意义的研究,或许某一天自己的研究成果也能发表于高分杂志上。

作者简介

李潇,江苏省肿瘤医院泌尿外科住院医师。目前以第一作者(或并一)发表SCI论文20余篇,已授权专利10件,主持数项课题,包括国自然青年基金一项。参编书籍2本、翻译书籍1本;担任AME Medical Journal、Translational Andrology and Urology等杂志Section Editor,参与JCO中文版翻译。

范博,大连医科大学附属第二医院泌尿外科,医学博士。目前以第一(或并一)发表SCI论7篇、中文核心期刊12篇、参与国自然3项、参编书籍5本、翻译书籍7本;担任Gland Surgery杂志的Section Editor,《临床与病理杂志》,《国际外科学杂志》,《现代药物与临床》审稿专家。

邹青,江苏省肿瘤医院泌尿外科主任,硕士生导师。目前担任全国抗癌协会泌尿男性生殖肿瘤专业学组委员、全国粒子核医学专业委员、江苏省抗癌协会泌尿男性生殖肿瘤专业学组副主委、江苏省医学会泌尿外科学组专业委员、江苏省医学会泌尿外科男性生殖肿瘤专业学组副主委、江苏省中西医结合泌尿外科专业委员、南京市泌尿外科专业委员会副主委。近三年通讯作者发表SCI文章10余篇,担任JCO中文版编委,作为主要研究者参与十余项泌尿生殖系统肿瘤国际、亚太地区多中心II期、III期、IV期临床药物试验。

此文为《临床研究经典案例解析》作者招募活动投稿文章。

comments powered by Disqus

附件