微信直播

AME特邀|学术型外科医生如何撰写系统评价和meta分析?

Published at: 2015年第1卷第S1期

Kevin Phan , David H. Tian , Christopher Cao , Deborah Black , Tristan D. Yan

摘要

随着外科学领域文献数量的快速增长,越来越需要对现有证据进行评价和总结,使其能够更适用于临床。当针对某一临床问题的高等级临床试验很少时,对系统评价的结果解释就比较困难。但是,如果坚持使用严格的评价方法(包括全面的文献检索、主要研究的质量评价、恰当的统计学方法、对估计值和偏倚风险的信度评估等),就可以将偏倚风险降到最低,并可能得出有用的结论。因此,本文的目的是:(I) 总结外科学领域全面严格的系统评价和meta分析的重要特征;(II)强调几个未广泛应用的统计学方法,相对于传统的两两对照数据合成,这些方法可能会开阔更广泛有趣的视野;(III)为全面分析和结果撰写提供一个指南。


 

随着外科学领域文献数量的快速增长,越来越需要对现有证据进行总结和评价,使其能够更适于临床应用(1,2)。循证医学即是慎重、清晰、明智地应用可获得的最佳研究证据来指导卫生保健决策。临床决策应当基于现有的全面证据,而非基于任何单一研究结果(3)。现代循证外科方法中的正规全面文献汇总评价(无论是否伴有额外统计分析)对于外科医生临床实践而言是非常重要的。这些文献汇总评价为外科医生提供不断更新的诊断、预后和健康干预效益知识(4)。

系统评价和meta分析虽然日趋普及,但仍有一定的局限性。外科医生在临床上直接应用其结论之前,必须谨记其局限性。系统评价和meta分析的质量不仅源于原始研究的质量,还取决于系统评价制作的严格程度(5)。一项制作较差的系统评价和meta分析往往采用了可信度较差的制作方法和统计分析,这可能会得出误导的结果和结论(6,7)。当针对某一临床问题的高等级临床试验很少时,系统评价的结果解释就比较困难。但是,如果采用严格的评价方法,就可以将偏倚风险降到最低,并可能得出有用的结论。这些评价方法包括:全面的文献检索、原始研究质量评价、恰当的统计分析、对估计值和偏倚风险的信度评估。

因此,本文的目的是:(I) 总结外科学领域全面严格的系统评价和meta分析的重要特征;(II)强调几个未广泛应用的统计学方法,相对于传统的两两对照数据合成,这些方法可能会开阔更广泛有趣的视野;(III)为全面分析和结果撰写提供一个指南。

1构建临床问题

在检索文献之前,必须先构建好既清晰准确又适于做系统评价或meta分析的临床问题。为了改善现有临床认知、实践、指南和决策,仔细评估临床问题的意义和适用性是非常重要的。

构建临床问题有一个公认方法就是采取PICO格式。PICO即清晰的定义研究人群(P),干预 (I), 对照(C), 结局(O)(1)。例如,在最近一篇无缝合主动脉瓣置换的系统评价和meta分析(8)中,研究人群定义为需要进行外科主动脉瓣置换的患者(P), 干预是微创主动脉瓣置换(I),对照是传统主动脉瓣置换(C),结局包括围手术期死亡率和并发症(O)。

构建一个好的临床问题的难点在于定义研究人群和干预方式的范围。为了确定问题的范围,评价者必须充分理解现有的文献证据、潜在不足和不确定因素,并了解系统评价或meta分析或许可以补充哪些不足、回答哪些问题。

范围综述(scoping review)有助于探索现有证据的范围并帮助确定临床问题的范围。当构建临床问题时,需要考虑现有证据的等级和研究设计。例如,如果有可以纳入足够的随机对照试验(RCT),则可将系统评价的范围限定为仅纳入RCT,这样可以避免非随机研究带来的选择性偏倚。相反,如果可纳入的RCT较少,而证据主要局限于观察性研究时,评价者则可以考虑将范围扩展到为同时纳入RCT和观察性研究。为了分析非随机设计对结局效应量的影响,可以进行二次分析,即亚组分析和敏感性分析 (10,11)。当进行meta分析时,问题可能会更窄,例如仅纳入对比两种干预方式的试验。

相似的逻辑也适用于设定研究人群、干预、对照及结果的范围。例如,如果人群定义的过宽,则众多的危险因素会影响结局效应估计值,进而产生错误的趋势和结论(12,13)。例如,年轻患者(<50岁)和老年患者(>70岁)因为潜在并存病及手术风险不同,所以植入的主动脉瓣耐用度方面也存在着差异。因此若合成所有年龄患者的无再手术率数据,则会所得出一个不准确的全年龄组瓣膜耐用度。

一个清晰的问题应该既有临床意义又有严格定义的研究人群、干预方式、对照和结局指标。当问题不清晰时,系统评价就会模糊、结构差、异质性强,此时会产生一系列风险,并且得出无效的结果。我们推荐在制作系统评价之前先写作或发表一个研究计划书(15,16)。此研究计划书应充分定义纳入排除标准、研究对象、干预、结局指标和统计分析策略。

2文献检索

下一步,作者应根据要回答的临床问题预先设定纳入及排除标准,并在最终文稿中写明。此标准可能包括:拟纳入研究的设计(RCT还是所有研究类型;仅对照研究)、研究人群特点(性别、年龄、疾病)、研究发表语言以及发表时间(比如纳入2000年以后发表的研究)。排除标准包括但不限于:低级证据(如仅有摘要)、会议论文,社论及专家观点、重复随访报道同一组人群的研究、每组少于10个样本的研究等等。应该考虑到纳入排除标准所引起的潜在偏倚,并与系统评价结果一同讨论。

 

为了全面系统的检索原始研究,推荐检索多个数据库(17)。经典的电子数据库包括MEDLINE, EMBASE, PubMed, Cochrane Central Register of Controlled trials 和ACP。如果仅检索一个数据库,则很可能存在漏检,因此是不推荐的(18,19)。非常重要的是,评价者应该根据其预设的临床问题使用关键词、MeSH词以及布尔逻辑符,比如“AND”, “OR”, 和 “NOT”。 根据PRISMA指南(20),在系统评价中需至少提供一个检索策略,可以作为文章表格或补充表格或者附录数据。文献检索应该至少由两个评价者分别独立完成。两人对最终纳入文章的任何不一致意见都应该由讨论和协商解决。而且,需要进行附加检索,包括检索注册试验、纳入研究的参考文献、外语文献和与领域内专家交流等。在终稿中,应该按照PRISMA流程图标明整体检索策略。

3研究质量评价

纳入研究的内在偏倚风险会影响最终结果的真实性(validity)。因此,需要依据Cochrane或MOOSE指南对纳入研究进行质量评价。

许多不同的清单和工具可以用来评估研究内部偏倚(24,25)。考克兰协作组Review Manager软件内置有RCT质量评价工具,其包括如下方面:随机序列生成、分配隐藏、受试者盲法、结局评估盲法、不完整结果数据、选择性报告结果、以及其他偏倚来源。RCT常被认为是系统评价和meta分析该纳入的最佳高质量金标准研究。但是,不同的RCT在方法学和报告质量上有差异。因此,对所有纳入的RCT进行质量评估是非常重要的。高质量RCT应该遵循随机对照试验报告规范(CONSORT),CONSORT标准包括22个清单条目和流程图(28) 。

也有许多清单可以评估观察性研究(29-31)。其中一个是荷兰考克兰协作组建立的,而另一个常用清单是STROBE (29)。MOOSE工具(31)的主要方面包括:(I) 清晰定义研究人群;(II) 清晰定义结局以及结局评估;(III)独立评估结局参数; (IV)足够的随访; (V) 随访时无选择性失访;(VI)识别重要混杂因素和预后因素。强烈推荐采用这些清单来严格评估纳入研究的质量。完整清单应该以文中表格或者补充表格形式出现在系统评价中。应该由至少两个评价者独立进行偏倚风险评估,而且任何差异都应该通过讨论达成共识。表格1是最近发表的外科领域系统评价(8,32)中的风险评估表单。对于不符合预先设定的质量要求的研究,需要谨慎考虑在进一步的统计分析中是否合纳入,比如可以通过敏感性分析识别异质性或通过累积meta分析(33-35)来识别时间对效应量的影响 (34,36,37)。

4数据提取

数据提取应该基于预先做好的提取表格进行,此表格内容包括预先定好的人口学数据、手术参数和结局指标等。数据提取应该至少由两个评价者独立进行,并通过协商解决不一致意见。这样可以降低评价者偏倚风险、错误和主观性。

5统计学方法

概括统计量

需要基于系统评价类型和可用数据选择统计方法。当系统评价研究某外科干预而没有对照组时,可以采用描述性统计方法报道连续性变量的均数、标准差及范围。如果研究间的人群特点或纳入/排除标准足够相似,则可以进行加权率的meta分析,即采用随机效应模型合并单臂队列研究。此类meta分析的一个例子就是采用加权合并分析无缝合主动脉瓣置换术(SU-AVR)(8)后随访12个月的瓣周漏发生率(图1)。

对于基于对照研究的系统评价和meta分析,概要统计量的最佳表达形式就是森林图(38)。森林图包括每个纳入研究效应量的加权合并,也能够提示研究间的异质性。图2是微创主动脉瓣置换时采用胸骨小切口还是胸廓小切口对比的meta分析森林图(39)。在森林图中,以方块表示其每个研究的效应量均数,以水平线表示每个研究的效应量95%置信区间。方块大小代表着该研究在meta分析中所占的权重比例。黑色菱形代表meta分析的合成效应量,其宽度是整体置信区间。如果此菱形方块全部在中心垂直实线的一侧,则说明两干预方式对比的效应量差异具有统计学意义(38)。

点估计的典型概括统计量为描述二分类变量的相对危险度(RR)或优势比(OR)和描述连续数据的加权均数差(WMD)。Meta分析的统计模型可以为固定效应模型或随机效应模型。前者假设纳入研究间的真实效应相似,而后者则假设纳入研究描绘的是效应量的随机样本。随机效应模型最适用于当效应量存在异质性时。

为了评估纳入研究间的效应量是否存在一致性,需要对异质性进行量化评估(40)。常用的评估异质性的检验有两种。考克兰Q检验可以判断该效应量异质性的有或无(41)。而I2统计量表示变异的量级,0%说明任何变异都源于机遇(chance),I2值越高则说明无法解释的变异越大。通常来讲,I2值大于50%说明该效应量存在显著的异质性。

当存在显著异质性时,需要解释异质性的来源(40)。一些方法可以用来识别异质性的潜在来源。首先就是亚组分析(42)。对不同亚组的结局进行相同的统计分析,并在亚组间作交互式检验来识别亚组间是否存在显著性差异。如果P值是显著性,则很大可能会在特别亚组和目标结局之间存在相关性。另一个可以评估异质性的方法是下面要说的meta回归。

Meta回归分析

Meta回归分析是另一个评估异质性的方法。Meta回归分析判断自变量与因变量间是否存在显著的关联性。自变量为研究或者干预的特点(例如年龄、研究时间点、手术时间),因变量为结局指标(43)。构建回归模型时可以采用P值和回归系数(r)评估相关性的强度。显著关系表明研究变量可能是观察到的变异性的来源(8,43-45)。例如图3的meta回归分析表明,采用Perceval S内植物时,研究时期中点与瓣周漏率呈显著负相关(8)。这说明,对于瓣周漏的合并结局而言,SU-AVR学习曲线可能是异质性的来源。

网络meta分析

网络meta分析可能适合于评估多个干预方式(>2)治疗同一种疾病或获得同一种结局的情况。众所周知,网络meta分析是一种多种干预方式比较的meta分析,其目的是合并所有可能的含有多个干预方式的直接或间接对照结果,并进行整体比较(46-48)。相对于传统的两两对比meta分析,网络meta分析的优点是采用了间接证据,合成所有可获得的数据,可以为目前还没有头对头直接比较试验的干预方式间的对照计算效应估计值。

尽管本文范围不包括网络meta分析的统计学细节,但是仍需指出:可用的直接证据(A比 B)和间接证据(A 比C, C 比B)可以采用贝叶斯统计模型运行蒙特卡罗模拟(49)。此模型会收敛似然估计效应量,并提供一个A比B比C模式的对照。此方法的前提假设是干预方式的对照组(比如C)在间接对比试验间是相似的(50)。

网络meta分析特有软件包包括WinBUGS和GeMTC包。网络meta分析的制作过程与传统meta分析相似,包括(I)从直接和间接对照研究中提取数据;(II)将数据输入软件例如WinBUGS 或 GeMTC;(III)运行贝叶斯模型和蒙特卡罗模拟。

在这个首次对比中位胸骨切开、微创胸骨切开、微创胸廓切开进行微创主动脉瓣置换的系统评价中,采用了基于直接和间接证据的贝叶斯网络meta分析(39)。因为既往很少有研究针对微创胸骨切开和微创胸廓切开进行了头对头对比,所以这种情况特别适于做网状meta分析。此网络meta分析整合直接对照和间接对照证据,得出了微创胸骨切开与微创胸廓切开术对比的效应量。

网络meta分析的注意事项是,其比两种干预方式对照meta分析更容易受异质性的影响(51,52)。在进行网络meta分析时,可以用几个不同的模型来评估异质性。这些统计模型包括一致性模型、不一致性模型和节点拆分模型(node-splitting model)。如果发现了显著的异质性,则需要说明不一致性模型和节点拆分模型的结果,并且要慎重得出文章结论(53)。

时间事件数据分析

在系统评价和meta分析中,时间事件结局如生存数据等一般用风险比(HR)来进行合并。但是,很多研究并没有报道HR,而且也无法获得个体患者数据(IPD)。某些系统评价和meta分析简单的从Kaplan-Meier图中视觉上估计实际生存结局。但是,这个方法没有考虑到删失和失访,而且无法估计HR。为了解决这个问题,已发表文献推荐了几个统计方法,这些方法能够基于其他发表的概要统计量来估计HR(54-57)。这样,就可以从已发表文献中提取估计HR并进行meta分析。

Tierney等在2007年提出并验证了一个常用的HR估计方法(58)。此方法是采取Digitizelt软件数字化提取Kaplan Meier曲线的数据,并且从文章中提取风险患者数。因此,可以准确地估计出数字化提取的实际生存率和随访期间的风险患者数目。Tierney等也制作了Excel电子表格(58),当在表格中输入这些数据并且假设删失数据不变,就可推导出此特定研究原始IPD的估计值。对所有纳入研究采用相似的提取和推导重建数据IPD过程,重建的数据可以用于进行时间事件结局的meta分析。

Guyot和他的同事们在2012年提出了另一个新方法也可以重新估计IPD数据(59)。这个团队设计出一种迭代算法,其可以解开根据原始研究数据绘制图形的Kaplan-Meier方程。与Tierney等的方法相似,他们采用Digitizelt软件来数字化提取Kaplan-Meier曲线数据,然后将这些数据输入迭代算法运算得出理想的Kaplan-Meier方程解。同样,此算法假定删失数据不变,而且可以在R统计软件上运行。重新得出的患者生存软件能够整合形成组合生存曲线。最近一篇文章采用这个方法来提取开放手术修复慢性B型主动脉夹层的长期时间事件生存数据,其产生的整合Kaplan-Meier曲线见图4(60)。最近,心胸外科系统评价(61)也已经开始采用这种方法。希望在不远的将来,随着时间事件数据的合成需求增加,此方法也能得到推广。

6发表偏倚

系统评价的另外一个先天不足是发表偏倚(62,63)。相对于得出阳性结论的研究,那些得出阴性结论的研究文章常常更难被发表。常常导致是阴性结果研究更容易“丢失”,这常常会使得meta分析结果偏移,并得出误导的结论。

因此,在系统评价或meta分析中,评估发表偏倚的潜在影响是非常重要的。评估发表偏倚最常用的方法是漏斗图法(64)。漏斗图标明了处理效应的精确度和大小,其形似倒漏斗。水平轴表示干预效果,垂直轴表示标准误差。理想情况下,当发表偏倚很小时,漏斗图的点围绕平均效应值对称分布。非对称分布表明可能存在潜在的发表偏倚,而发表偏倚会破坏结论的真实性(validity)。Begg 和 Egger检验可以被一起用来在统计学上判定是否存在漏斗图不对称(65)。

为了评估计算某效应量发表偏倚的“丢失的研究” 效应,可以采用剪补分析法(66)。这是一种漏斗图方法的拓展,即在对称的漏斗图上识别和估计“丢失的研究”。将推理出的丢失研究填入漏斗图,此时判断效应量的结果改变是否显著,以此来帮助评价发表偏倚。例如最近心胸外科领域的meta分析采用此方法评估发表偏倚的效应及“丢失的研究”,例子如图5(60,67,68)。此方法的注意事项是,其完全基于前提假设:当漏斗图完美对称时,不存在发表偏倚。然而此假设或许成立也或许不成立。而且,发表偏倚的来源和机制并没有充分阐明,因此需要谨慎解释漏斗图和剪补分析法的结果。

7结果解释

当对系统评价和meta分析的结果进行解释时,需要考虑一下几个因素。第一,评价者应该评估结果的临床意义。例如,如果两种干预方式的手术时间具有统计学差异,相差5分钟,那么这会显著影响患者的结局吗?既往研究曾建议,在临床试验的计划和结果解释中应该包含治疗或者干预方式的最小临床意义变化值(MCID)(69)。第二,评价者应该在讨论部分讨论和解释异质性的潜在来源。这可能包括亚组分析或meta回归来判定那些因素影响目标结果。第三,系统评价应该讨论其相对于既往系统评价(如果有的话)的优点以及此评价的不足。不足之处可能包括但不限于如下:纳入非随机研究(可能会导致偏倚风险)、较小的患者样本量、比较队列间人群基线的显著差异,随访时间短、纳入研究间采用外科干预的异质性等。

结局指标的GRADE评估

科学证据和结局指标的质量可以采用GRADE工具进行评估(70,71)。这是针对某特定结局的一种透明、结构化的证据评级方法。GRADE方法采用证据升级和降级的方法来为某结局进行证据评级。证据升级的指标包括大效应量和剂量反应关系。证据降级的指标包括严重的偏倚风险、研究严重的不一致性、严重的间接性、严重的不准确性和可能的发表偏倚。GRADE工具可能会使评价者对系统评价的效应量增加或减少信心,也就是说,对真实的关联性有较高的信心(71,72)。

结果撰写

图6是系统评价和meta分析的整体过程。为了辅助外科医生严格制作系统评价和meta分析,我们推荐结构化的结果撰写(表2)。

8结论

系统评价和meta分析可以合成研究数据和评估现有证据质量,因此在外科领域越来越重要。但是,外科医生应该注意系统评价的质量。较差的系统评价质量可能会严重破环结果和结论的真实性。为了获得高质量系统评价及可靠的结论,必须严格执行标准化的制作过程。本文中我们对系统评价制作过程进行了概述,以确保优化系统评价和meta分析的质量和结果。

9致谢

声明:作者宣布无利益冲突。

作者

Kevin Phan, David H. Tian, Christopher Cao, Deborah Black, Tristan D. Yan

The Collaborative Research (CORE) Group, Macquarie University, Sydney, Australia

Correspondence to: Tristan D. Yan. Professor of Cardiovascular and Thoracic Surgery, The Collaborative Research (CORE) Group, Macquarie

University, Sydney, Australia. Email: tristanyan@annalscts.com.

译者

毛智,主治医师,解放军总医院临床医学博士,丁香园循证医学与临床运用讨论版版主(ID:水天之间)。

文章短评

系统综述和Meta分析对广大临床医生并不陌生,也越来越受到重视,一方面因为循证医学的理念深入人心,无论哪个专业的医生,在给患者作出临床决策时都希望是建立在当前已有的最好最全面的证据基础之上。另一方面系统综述和meta分析也是广大临床医务工作者渴望掌握的的一项发表论文的“神器”。前期在《科研时间》曾阅读过“meta分析如何选题”、“高分期刊青睐那类meta分析”之类的文章,收获不小。此次有幸拜读了Tristan教授及其团队撰写的从外科医生视角谈如何写好系统综述和meta分析。全文从选题、制定入排标准、筛选文献、质量评价、数据提取、统计学分析直至结果的解读,均作了详细介绍,并通过列举文献实例让读者加深理解,将教科书的经典理论与经典文献作了很好的结合,写作风格让人耳目一新。全文内容全面详细,深入浅出的介绍了撰写流程及注意事项,堪称meta分析写作的一部guideline,相信无论是是新手还是高手都能从中受益匪浅。

——黄雷,天津市第三中心医院心脏中心

本文题图来自网络。本文由AME科研时间首发布,媒体转载请注明出处。

完整图表及英文原文可点击【附件】查看。或点击链接:http://www.annalscts.com/article/view/5837/6703

comments powered by Disqus

附件