微信直播

AME统计020|如何利用 Sigmaplot 和 SPSS 做联合诊断

Published at: 2015年第1卷第S1期

胡志德
关键词:

在诊断准确性试验中,经常需要分析多个指标联合诊断是否有助于提高诊断准确性。传统的联合诊断策略是系列诊断试验(俗称“串联”)和平行诊断试验(俗称“并联”),但是这种联合诊断策略都存在明显的缺陷,表现在:

  1. 如果诊断手段是连续变量,诊断敏感性与特异性因诊断界值的变化而呈现此消彼长的变化趋势,本身有很多种组合;

  2. 敏感性和特异性只是反映了诊断手段的两种性能:确诊或排除疾病的能力,并不是衡量总体诊断准确性的最佳指标;

  3. 最重要的是,系列诊断试验和平行诊断试验都无法从统计学上明确多个指标联合诊断是否有助于提高诊断准确性。

目前,在国际杂志上刊登的诊断准确性试验中,已经很少有研究采用系列诊断试验和平行诊断试验区评价某一诊断手段的准确性了。取而代之的是以 c-statistics、NRI 和 IDI 为代表的高级统计学方法(详见《傻瓜统计学》第八章的内容)。其中,c-statistics 的应用尤为广泛。所谓 c-statistics,简而言之,就是用 logistic 回归等方法将多个诊断手段融合成一个函数,计算出一个新的变量(此处暂且命名为“综合变量”)。综合变量显然是融合了已有的诊断信息,因此理论上讲可能具有更高的诊断准确性。随后采用受试者工作特征(ROC)曲线法对所有的诊断指标(含综合变量)进行分析,比较综合变量的曲线下面积(AUC)是否优于单个诊断手段。假定综合变量的是明显优于任何一个诊断手段的,则表明采用多种手段联合应用的策略可以提高诊断准确性。

这里需要说明的一点是,在诊断准确性试验中,多个诊断手段联合使用不见得一定会提高诊断准确性,因为各个诊断手段之间本身有一定的相关性,所提供的诊断信息会有一定的重叠,因此联合诊断的准确性并非单个试验诊断准确性的简单叠加。换而言之, 1+1 有时并不等于 2,甚至还可能等于 1。打个极端比方:CA125 和 HE4 都可以用于诊断卵巢癌,假定在所有人群中,HE4 和 CA125 完全是正相关的(相关系数为 1.00),则联合 CA125 和 HE4 就无法提高总体诊断准确性,因为 CA125 和 HE4 提供的诊断信息完全相同:凡是被 CA125 漏诊的病人,也会被 HE4 漏诊;凡是被 CA125 误诊的病人,都会被 HE4 误诊。

在本文中,笔者拟演示如何用 Sigmaplot 和 SPSS 做联合诊断,或者说做 c-statistics。

1数据的录入

我们假定有两个实验室指标 marker 1 和 marker 2,均可用于某种疾病的诊断,现在需要研究 marker 1 和 marker 2 联合诊断是否会提高总体诊断准确性。如图 1 所示,首先在 SPSS 中录入诊断结局和诊断手段的检测结果。我们一般设定第一列为应变量,即患者的最终诊断,其中 1 表示患有疾病(疾病组),0 表示患者无相应的疾病(对照组)。

比如第一行的数据表示该病人患有疾病,marker 1 的检测结果为 23(单位略),marker 2 的检测结果为 2.45(单位略)。

图1 数据的录入

2进行 Logistic 回归运算

首先需要进行二元 logistic 回归分析。如图 2 所示,首先点击【Analyze】,然后选择【Regression】,继续选择【Binary logistic】。该部分操作也可以参考「AME 科研时间」前段时间推送的文章《二分类 logistic 回归在 SPSS 中的实现》。

图2 在 SPSS 中进行二元 logistic 回归分析

点击【Binary logistic】后,软件进入参数选择界面,如图 3 所示。将自变量选择为【diagnosis】(即患者的最终诊断);将 Covariates 选择为【marker 1】和【marker 2】;在 Method 中选择【Enter】。需要说明的两个问题是:第一,联合诊断不一定是两个协变量(Covariates),也可以是多个,比如 marker 3,marker 4,marker 5 等,根据实验目的而定;marker 3,marker 4,marker 5 也不一定是连续变量,可以是等级变量或者两分类变量。第二,Method 中建议选择 Enter,因为这表示所有的变量,不论其 OR 是否有统计学意义,都将进入 logistic 回归方程,用于产生新的变量(综合变量)。

图3 logistic 回归参数的设置

之后别急着点【OK】按钮,而是点击右上角的【Save】按钮,进入如图 4 所示的界面。

图4 logistic 回归中的 Save 选项

在 Save 选项中,注意勾选【Probabilities】,即让 SPSS 软件计算出每个病人患病的概率,这一步至关重要。这个概率是由 logistic 回归方程得出的患病概率,这一概率显然融合了已有的诊断手段。实际上,这个 Probabilities 也就是前文所指的“综合变量”。

之后点击【Continue】,再点击【OK】,SPSS 就开始进行分析了。我们返回 SPSS 数据界面,就发现在原有数据的基础上多了一个第四列,名为 PRE_1。如图 5 所示。

图5 SPSS 软件计算出了每个患者患病的概率

3在 Sigmaplot 中进行 ROC 分析

由于 SPSS 不能提供 ROC 曲线下面积的统计学比较结果,因此后续的分析只能在 Sigmaplot 中进行:即将 marker 1,marker 2 和 PRE_1 作为三个指标分别进行 ROC 分析,并比较其曲线下面积。ROC 曲线的绘制和结果解读可以参阅《傻瓜统计学》第 24 章的内容,也可参考「AME 科研时间」前段时间推送的短文《如何用Sigmaplot绘制ROC曲线?》 ,本文在此不再赘述,仅谈谈结果的解读。

假定 PRE_1 的曲线下面积大于 marker 1 以及 marker 2,说明联合诊断更有助于提高总体诊断准确性;反之,则说明尚不能认为联合诊断有助于提高诊断准确性。

假定 PRE_1 的曲线下面积大于 marker 1,但与 marker 2 的差异无统计学意义,说明尚不能认为联合诊断有助于提高诊断准确性。即在 marker 2 的基础上联合 marker 1 无助于提高总体诊断准确性。

4结语

上述方法实际上是 c-statistics 的总体演算过程,旨在明确联合诊断是否有助于提高总体诊断准确性。与传统的系列诊断试验和平行诊断试验相比,这种方法的优点显而易见:通过 ROC 曲线下面积的增加来反映诊断总体性能的改进显然更为科学,毕竟敏感性和特异性本身受诊断界值影响,不能全面反映诊断手段的总体性能。

实际上,c-statistics 在临床科研中最常见的用途是评价某一个诊断手段是否能提供临床常规信息以外的诊断信息。比如:当前新发现了一种卵巢癌实验室指标 OPN,为明确 OPN 是否能提供常规临床信息以外的诊断信息,可以先用 logistic 回归模型将所有研究对象的常规临床指标(如年龄、月经状态、婚育史、CA125 等)进行融合(模型1),产生一个新的名为 PRE_1 的概率指标。然后在模型 1 的基础上,加入 OPN,再次构建一个新的模型(模型 2),产生一个新的概率指标 PRE_2。之后分别对 PRE_1 和 PRE_2 进行 ROC 分析,并比较曲线下面积。如果 PRE_2 的曲线下面积大于 PRE_1,则说明 OPN 可以提供常规指标(年龄、月经状态、婚育史、CA125 等)不能提供的诊断信息,可以改善卵巢癌的总体诊断准确性。

 

笔者|胡志德,AME 学术沙龙委员、Section Editor (Systematic Review and Meta-analysis),《傻瓜统计学》主编之一,以第一作者或通讯作者身份发表SCI论文十余篇。

相关文章阅读

图书折扣卡券免费拿!

你知道吗?小科已经开通评论功能啦~点击右下方“评论”即可与万千读者分享你对文章的思考,共同探讨科研问题。小科也将定期从参与评论者中抽出 lucky guys,并赠送畅销书《傻瓜统计学》六折购书卡券哦~行动起来,让我们听到你的声音吧!

AME亦塾SCI论文写作与投稿技巧

广州站即将开课

长按二维码,在线报名!

http://wd.koudai.com/?userid=260520116

doi:

10.3978/kysj.2014.1.1123
comments powered by Disqus

附件