微信直播

如何结合SEER数据库+统计学套路进行预后研究——临床研究屌丝“第一桶金”挖掘之路

Published at: 2015年第1卷第S1期

王枭杰
关键词:

作者/王枭杰,福建医科大学附属协和医院结直肠外科

美国国立癌症研究所数据库(The Surveillance, Epidemiology, and End Results),简称SEER数据库,该数据库记录了美国部分州县上百万名恶性肿瘤患者的发病率、死亡率和患病情况等信息。SEER数据库旨在降低美国人口的癌症负担,数据库中肿瘤信息通过SEER*Stat软件进行统一和规范,并定期更新发布。全球肿瘤研究者均通过申请获取部分数据,这为缺少临床科研数据的临床研究者提供了很好的数据来源。此外,SEER数据库样本量大,统计学效能强,这使基于SEER数据库的研究具有较高的临床参考价值。

截止到2017年5月28日,Pubmed上可检索的基于SEER数据库的结直肠癌研究已达1063篇。我们通过整理已发表研究的研究脉络和统计学思路,发现从1-2分的低分SCI开始,到外科学权威杂志Annals of surgery,都有许多共通之处。本文拟对与预后研究有关的研究思路进行梳理,侧重从统计学“套路”的角度出发,从“单因素到多因素”(BASIC)到“统计学手段”(ADVANCE),对基于SEER数据库的预后研究进行讲解。

一、SEER数据库数据的获取

下载SEER*Stat:进入SEER数据库官网(https://seer.cancer.gov/),从“ForResearchers”子目录下“StatisticalSoftware”中,下载SEER*Stat(图1)。

图1. SEER*stat的下载路径

申请使用权:从链接https://seer.cancer.gov/seertrack/data/request/1/进入(图2),按照要求填写并发送。SEER数据库管理员会在短期内向申请者邮箱发送确认函,并在确认函中提供一个临时账号(包括用户名及密码)和研究数据协议(Research Data Agreement),通过进一步填写研究数据协议,即可获得SEER数据库的暂时使用权。但如果想获得一些额外字段,如是否接受过化疗等,则需提交书面申请。具体申请流程可通过发送电子邮件至seerstat@imsweb.com进行询问。笔者曾经尝试申请获得SEER数据库的“化疗”(Chemtherapy)字段,因该字段在普通版数据库中未提供。通过几次电子邮件的往来沟通,深切感受到SEER数据库团队提供的人性化服务,便捷且高效!并最后免费获得了该字段的使用权。

图2. SEER1973-2014 Research Data使用权的申请界面

二、统计学套路概述

(1)基于SEER数据库的预后研究大致可分为3类:

  1. 相关因素研究:主要探讨各种影响预后的独立危险或保护因素。例如淋巴结切除数目与直肠癌预后的关系,或探讨年龄对肿瘤患者预后的影响。

  2. ‚干预研究:主要对各种干预因素的预后进行比较。例如比较转移性直肠癌患者行原发灶切除和原发灶不切除的预后差别。

  3. ƒ预后预测模型构建:通过对影响预后的独立相关因素进行综合,在这基础上,构建一个可以预测患者预后的模型,目前比较热门的方法包括对现有的TNM分期进行改良、nomogram、神经网络等。

图3. 统计学套路图 蓝框为统计学核心,黄框为统计学手段

(2)统计学核心(图3)(BASIC)

无论以上3类研究的哪一种,其统计学核心均为单因素分析和多因素分析。单因素分析主要通过Kaplan-Meier法进行生存曲线的比较、或直接通过Cox风险比例模型进行回归分析,但每次仅仅纳入一个因素进行分析。然后根据单因素是否具有显著性,选择进一步纳入多因素分析的因素。关于显著性的界定,可以是P<0.05至P<0.5,研究者可根据研究需要酌情选择。值得注意的是,如果采用Kaplan-Meier法进行单因素分析,则所有单因素均需转化成分类变量,这样有可能降低了统计学效能。举例:比如探讨年龄对直肠癌预后的影响,如果根据Kaplan-Meier法,我们需要对年龄进行分组(例如分成>60岁和<=60岁),然后进行高龄组(>60岁组)和低龄组(<=60岁组)的预后比较;但如果采用Cox风险比例模型进行单因素分析,则可直接将“年龄”因素纳入、进行分析,直接探讨“年龄(每岁)”对预后的影响。这能为今后的进一步分析,如进行预后预测模型的构建等,提供更丰富的原始数据。通过单因素分析,研究者可以初步获得一些可能影响预后的因素。

单因素分析后,还要进一步做多因素分析。通俗的说,即单因素分析可能存在混杂因素的干扰,比如高龄组(>60岁组)患者预后较差,有可能是因为高龄组本身合并症比较多(高血压、心脏病等)导致的非肿瘤因素死亡,而不是肿瘤因素引起的死亡。因此,为了对这些混杂因素进行控制,需要进一步对单因素中有意义的因素进行多因素分析。从而控制可能存在的混杂因素。需要强调的是,并非进行了多因素分析,就能完全排除混杂因素,因为SEER数据库能提供的字段有限,尚有很多未知的因素无法纳入分析。比如SEER数据库无法提供直肠癌患者具体接受了什么化疗方案。众所周知,不同的化疗方案疗效不同,预后可能也不同。因此,即使进行了严格的统计学控制,我们仍无法完全排除混杂因素的干扰。但是纵观目前的SEER数据库相关预后研究,多因素分析仍然是控制混杂因素的“家常菜”,也基本是必做的。通过多因素分析,可帮助研究者寻求那些影响预后的、不受混杂因素干扰(至少论文中可以这么认为)的独立相关因素。

举例说明,一项研究探讨影响肺淋巴上皮瘤样癌的预后独立相关因素。作者以P<0.5作为单因素显著性阈值,共纳入了年龄、肿瘤大小、分期、原发灶手术等9个因素,探讨其在总生存率(Overall survival,OS)中的预后价值。单因素分析发现:年龄、肿瘤大小、分期、原发灶手术为具有显著意义的单因素(P<0.5),这些进一步纳入多因素分析,结果提示:仅年龄为影响OS的独立因素(P=0.017)[1](图4)。

图4. 预后的单因素和多因素分析示例(该文采用Cox风险比例模型)

通过单因素到多因素分析,研究者可获得一些结果。比如对于相关因素研究,我们已经可以知道哪些因素是影响预后的独立相关因素;对于干预研究,我们可得出某种干预手段是否影响肿瘤预后。基于此,已经可以撰写发表论文了!

(3)统计学手段(ADVANCE)

与其说是统计学手段,不如说是统计学套路。在前述的单因素加多因素基础上,还可通过一些“拉风”的统计学手段(X-tile,PSM,Nomogram等)进行修饰(图3)。如果运用得当,这些手段可为文章加分。

a. X-tile:主要用于相关因素研究。例如探讨年龄对肿瘤患者预后的影响,如何对年龄进行分组?传统方法可通过参考文献或指南共识进行常规分组,例如以65岁为截点分成高龄组和低龄组,从而探讨年龄对预后的影响,但这种方法较为主观,且可能降低了检验出“差别”的机会(有可能以60岁为截点进行分组,可作出统计学差异,而以65岁分组,没有差异)。为了尽量选择有“差异”的截点,可采用X-tile进行截点的设置。X-tile类似ROC曲线,但X-tile考虑了时间因素(预后研究都要考虑患者的生存时间)。通俗的说,X-tile可以直观地计算出最佳截点,从而更可能做出阳性结果(统计学差异)。在这里笔者简单演示如何用X-tile(Yale UniversityVersion 3.6.1)进行截点设置(图5):根据图6纳入相应“生存状态”、“生存时间”和“拟设置截点的变量”,进一步进入数据绘制界面。从界面中,根据点击位置不同,可进行单截点或2截点的设置。鼠标点击三角区域,则自动生成最佳2截点,并自动分成三组,并自动进行预后比较;鼠标点击条形区域,则自动生成最佳单截点,并自动分成两组,进行预后比较(图7)。

图5. X-tile欢迎界面

图6. 软件设置过程

图7. X-tile结果界面的操作与解读

b. ‚倾向性分析(PSM)广泛运用于回顾性分析,这里主要介绍其在干预研究中的运用。传统的研究方式大致将总样本根据是否执行了干预手段,分为干预组与非干预组,然后比较两组的预后。由于基于SEER数据库的研究均为回顾性分析,难以避免干预组与非干预组间基线不可比(如干预组的肿瘤大于非干预组),两组既然不在同一起跑线上,其预后分析结果自然可能受到审稿人质疑。这时,可采用PSM进行两组基线的匹配,通过该统计学手段,可以对干预组和非干预组的病例进行1:1或1:n的配比,使基线对等,降低选择偏倚。

例如一项2017年的研究比较老年人结肠癌行半结肠切除术和部分结肠切除术的预后差异。在进行基线比较时,发现半结肠切除术组和部分结肠切除术组在年龄、种族分布、肿瘤分期等多个基线指标均存在统计学差异(P<0.05),半结肠切除术组的肿瘤分期较晚,基线不可比,不能直接进行预后比较。因此,作者进一步运用PSM方法对两组的基线进行了配对和校正,使两组的基线指标(除种族分布)对等(图8)。PSM校正后的生存分析提示两组间的肿瘤特异生存率类似(图9)[2]。

图8. PSM校正前后图解

图9. PSM校正后的生存分析结果,因作者使用1:1校正,校正后两组样本量均为6150例

ƒc. 预后预测模型构建:通过对影响预后的相关因素进行综合分析,可根据COX回归系数等统计指标对预测因素进行赋值,从而建立评分模型。 目前比较热门的方法包括对现有的TNM分期进行改良、nomogram、神经网络等,这种类型的研究大多是对相关因素研究的一种延伸。以往研究生的一般论文套路是进行了单因素和多因素分析后,得出某某因素是影响预后的独立危险(保护)因素,然后研究就到此为止了。如果选题一般的话,类似的研究难以在好的杂志上发表。但如果用nomogram修饰一下,就可能在Sci杂志上发表了。

一项2016年发表的研究探讨影响结直肠癌的预后相关因素,通过单因素及多因素分析发现了诸多常见的预后独立相关因素(例如性别、种族、婚姻状况、肿瘤大小、术前CEA水平等)(图10),因素本身并无创新之处,但作者将这些独立相关因素进行多因素的可视化,绘制成nomogram(图11),使多因素结果的显示更为直观。通过该nomogram,将每项因素向上对应至标尺(Point),可得每项因素的得分,如size的得分为7.5分。最后将每项的得分相加,的总分(Total Points),将总分向下对应,可得3年、5年的肿瘤相关生存率(CSS)和中位CSS。相关研究成果发表在3.2分的杂志上[3]。

图10. 多因素分析结果

图11. 根据多因素结果绘制的nomogram及解读

三、SEER相关预后研究如何创新

介绍创新性前,我想强调:由于SEER数据库属于开放数据库,你能获得的数据也是全世界其他研究者同时能获得的,这就提示研究的时效性非常重要,也就是说,你能想到的题目、创新点,也是全世界其他研究者可能同时想到的。因此,写SEER相关的论文要贯彻“马上就办、立即就干”的作风,拒绝“拖延症”。

总体来说,SEER数据库预后研究的创新大致可分为两类。

(1)研究主题的创新

以预后相关因素研究为例,可通过一些很细微的转换或改变进行创新。例如探讨淋巴结与结直肠癌预后的关系:可以探讨阴性淋巴结数目和直肠癌预后的关系[4],淋巴结总数对预后的影响[5],也可以是阳性淋巴结比(阳性淋巴结数目/总淋巴结数目)对预后的影响[6],甚至仅仅在这个基础上做个Log化[7],又是一篇论文。可以说,大创新不易,小创新不难!

(2)统计学游戏

基于统计学手段,进行一些花哨的拼贴,然后做成各种套路。传统的单因素多因素分析虽然重要,但给人感觉比较Low,因此可以结合研究类型,适当拼贴一些统计学手段(X-tile,PSM,Nomogram等)进行修饰。甚至类似的主题,仅加入一个新的统计学手段,又是一篇新论文。如:2014年有一项研究探讨直肠癌新辅助放化疗后,阴性淋巴结数量对预后的影响,该研究通过比较每增加一个淋巴结截点的生存率,发现当阴性淋巴结增加到10枚时,生存率不再增加,因此选择了以阴性淋巴结数=10作为影响预后的截点[8]。至2015年又有一项基于新辅助放化疗后直肠癌淋巴结总数对预后影响的研究,运用X-tile进行淋巴结数量的截点设置,得出了淋巴结总数=10作为影响预后的截点[5]。

四、小结

通过本章的介绍,旨在为初涉临床研究,手头又无临床数据库的科研屌丝提供一个开始着手临床研究的思路。通过SEER数据库的可获得性,结合统计学核心(单因素和多因素分析),点缀一些统计学手段(X-tile,PSM,Nomogram等),大致涵盖目前SEER数据库相关预后研究的基本方法,希望能对读者有所裨益。

参考文献

[1] He J, Shen J, Pan H, et al.Pulmonary lymphoepithelioma-like carcinoma: a Surveillance, Epidemiology, andEnd Results database analysis[J]. Journal of Thoracic Disease, 2015, 7(12):2330-2338.

[2]Guan X, Hu H, Chen W, et al.Comparison of long-term outcome between hemicolectomy and partial colectomy inthe elderly: a large population-based study.[J]. Oncotarget, 2017.

[3] Zhang Z Y, Luo Q F, Yin X W, etal. Nomograms to predict survival after colorectal cancer resection withoutpreoperative therapy:[J]. Bmc Cancer, 2016, 16(1):658.

[4] Li X, Lu H, Xu K, et al. Negativelymph node count is an independent prognostic factor for patients with rectalcancer who received preoperative radiotherapy[J]. Bmc Cancer, 2017, 17(1):227.

[5] Li Q, Liang L, Lu G, et al.Effect of Lymph Node Count on Pathological Stage III Rectal Cancer withPreoperative Radiotherapy[J]. Scientific Reports, 2015, 5(4):16990.

[6] Li Q G, Li D W, Zhuo C H, et al.Metastatic lymph node ratio can further stratify prognosis in rectal cancerpatients treated with preoperative radiotherapy: a population-basedanalysis[J]. Tumour Biology the Journal of the International Society forOncodevelopmental Biology & Medicine, 2014, 35(7):6389.

[7] Huang B, Ni M, Chen C, et al.LODDS is superior to lymph node ratio for the prognosis of node-positive rectalcancer patients treated with preoperative radiotherapy.[J]. Tumori, 2017,103(1):87.

[8] Li Q, Zhuo C, Cai G, et al.Increased number of negative lymph nodes is associated with improved cancerspecific survival in pathological IIIB and IIIC rectal cancer treated withpreoperative radiotherapy[J]. Oncotarget, 2014, 5(23):12459-71.

作者简介

王枭杰,外科学硕士,医师。2014年毕业于福建医科大学,师从池畔教授,主要研究方向为结直肠癌的临床与基础研究,已完成多项临床研究,以第一作者在Oncotarget、Int J Colorectal Dis、Gastroenterol Res Pract、Dig Surg等国外期刊及《中华外科杂志》、《中华胃肠外科杂志》、《中华消化外科杂志》等国内期刊上发表15篇论著。主持两项省厅级课题。

此文为《临床研究经典案例解析》作者招募活动投稿文章。

comments powered by Disqus

附件