微信直播

AME统计019|多组比较之后是否有必要进行两组比较?

Published at: 2015年第1卷第S1期

胡志德
关键词:

在医学科研,尤其是临床科研中,经常会遇见多组比较的问题。处理这类数据时,一个比较棘手的问题就是:多组比较之后是否有必要进行组间比较?打个比方,某研究分析了 AFP 在不同肝癌分期中的分布状况,得出如下数据:

表1 不同肝癌分期患者血清 AFP 水平比较(均数±标准差)

很明显,这组数据的标准差大于均数,表明数据不服从正态分布,因此先以 Kruskal-Wallis H 检验分析分组因素(肿瘤分期)是否会影响 AFP 水平,结果发现 P<0.01,因此认为肿瘤分期可以影响 AFP 水平,或者说肝癌分期和 AFP 水平有关。

问题来了,像这种试验设计,在总体比较之后是否有必要进行两组比较呢?即是否需要比较 I 期和 II 期肝癌患者 AFP 水平,I 期和 III 期肝癌患者 AFP 水平等呢?对于这个问题,笔者认为应该分情况讨论,而不应该一概而论。多组比较可以分为以下几种情况:

1 分组因素属性相同

上述 AFP 与肝癌分期的例子中,分组因素是肝癌分期,共设四组(I、II、III 和 IV 期间),其属于分组因素属性相同的设计。笔者认为,对于此类研究,一般没有必要进行两组间的比较,理由如下:不论是采用单因素方差分析(正态分布的数据)、 Kruskal-Wallis H 检验(偏态分布数据)或卡方检验(无序分类变量)对数据进行分析,得出的结论均为:分组变量是否会影响效应量,或者说自变量是否会影响应变量,而这一结论,正是我们需要的结论。上述 AFP 与肝癌分期的例子中,我们可以看出随着肝癌分期的递增,AFP 水平逐渐增高,加之 Kruskal-Wallis H 检验结果表明 P<0.01,因此我们可以得出结论:AFP 水平受肝癌分期影响,其水平随着肝癌分期的递进而增高。这个结论已经能满足我们的研究需要了。

当然,我们也可以进行两两比较,比如,经过两两比较后我们得出了如下结论:III 期患者 AFP 水平较 I 期高(P<0.05)、IV 期患者患者 AFP 水平高于I期和 II 期(P 均小于 0.05),其实这个结论的专业价值不高,因为这个结论也是说明随着肿瘤分期的递增,AFP 水平逐渐增高。一般而言,论文的统计学分析应该有所主线,即围绕研究假设进行分析,不应该脱离主线做一些无关痛痒的统计分析。

2 分组因素属性不同,且使用同一对照

某研究欲分析血清 IL-2 在原发性胆汁性肝硬化(PBC)发病机制中的作用,研究设计的第一部就是需要明确 PBC 患者的血清 IL-2 是否异常。因此,该研究出了 PBC 组外,研究者还需设立健康对照组。同时,为了证实 IL-2 是否是特异性地参与了 PBC 的发病机制,研究者还同时将其它自身免疫性疾病设置为对照,包括:类风湿性关节炎、系统性红斑狼疮和干燥综合征。研究者得出的结论如下:

表2 各种自身免疫性疾病患者血清 IL-2 比较

这种设计的自变量,或者说分组因素属性并不统一,而且都使用了同一个对照,即健康对照。对于这种设计,有的读者可能会说,我直接使用t检验或 Mann-Whitney U 检验进行两组比较即可。笔者认为这种方法并不妥当,理由如下:

假定经过 Mann-Whitney U 检验后作者发现 PBC 患者血清 IL-2 水平高于健康对照(P=0.04),说明 IL-2 参与了 PBC 发病机制。再经 Mann-Whitney U 检验后发现干燥综合征患者血清 IL-2 水平高于健康对照(P=0.05),说明 IL-2 参与了 SS 的发病机制。由此我们可以得出结论:IL-2 并不是特异性地参与了 PBC 发病机制。请注意,这一结论其实是基于两个发现:① PBC 患者血清 IL-2 水平高于健康对照;②干燥综合征患者血清 IL-2 水平高于健康对照。

根据P值的定义我们可知:“ PBC 患者血清 IL-2 水平高于健康对照”这个结论正确的概率只有 96% ;“干燥综合征患者血清 IL-2 水平高于健康对照”这个结论正确的概率是 95% 。这两句话同时正确的概率是 0.96×0.95 = 0.912 。言外之意,“ IL-2 并不是特异性地参与了PBC发病机制”这一结论正确的概率只有 91.2% 。很显然,尚不足以认为这是小概率事件(P=0.0808),因此 “ IL-2 并不是特异性地参与了 PBC 发病机制”这一结论的可靠程度还值得商榷。

正确的分析方法应该是:首先应采用单因素方差分析和 Kruskal-Wallis H 检验进行分析,明确分组因素是否会影响 IL-2 水平。由于数据明显不服从正态分布,因此这里采用 Kruskal-Wallis H 检验,结果发现 P<0.01 ,表明分组因素可以影响 IL-2 水平。接下来就是两两比较,可能的比较方式是:RA 等自身免疫性疾病与 PBC 比较、 PBC 与健康个体比较、 RA 等自身免疫性疾病与健康个体比较。笔者认为,RA 等自身免疫性疾病与 PBC 的比较并无多大价值。打个比方,就算分析得出RA患者 IL-2 水平显著低于PBC患者(P<0.05),这一统计分析说明了什么专业问题呢?这一统计学结论显然是无法向专业结论过度的,因此无需比较。但是 RA 等自身免疫性与健康对照相比是很有必要的,因为这可以明确 IL-2 是否也参与了这些自身免疫性疾病的发病机制。比如发现 RA 患者血清 IL-2 显著高于健康个体(P<0.01),这就说明 IL-2 也是参与了 RA 发病机制的。结合研究的假设,可以得出结论:IL-2 并不是特异性地参与了 PBC 的发病机制,在其它自身免疫性疾病中也发挥着作用。

这里牵涉到一个用什么方法进行两两比较的问题:如果数据服从正态分布,且方差整齐,应首先采用单因素方差分析明确总体上是否有统计学差异。两两比较时,有很多中方法可以选择,但是这些方法都是有区别的,笔者仅介绍几种比较常见的方法及其差异,如下表:

 

表3 单因素方差分析后组间比较的方法

 

很显然,该研究的设计属于多个实验组与一个对照组的比较,应该采用 Dunnet-t 法,在进行软件操作的时候,软件会让操作者选择对照组。这种方法在 SPSS 中的操作过程见后续章节。

如果数据不服从正态分布,先可以尝试对其进行对数转化,使其服从正态分布后再采用上述方法分析。如果数据经转化后仍然不服从正态分布,可以先用 Kruskal-Wallis H 检验明确总体上是否有差异,然后再采用 Nemenyi 检验进行两两比较。

这里需要特别强调的是,Kruskal-Wallis H 检验后的两两比较在统计学上还有很大争议, 目前还没有比较公认的说法。Nemenyi 检验本身也存在一定争议,因此有些软件干脆就直接不提供这方面的检验方法。也有作者在 Kruskal-Wallis H 检验直接用 Mann-Whitney U 检验进行两两比较,但其根据需要实际情况对检验水准进行了校正,笔者认为,这种方法也未尝不可。

总体而言,如果数据呈偏态分布,两两比较是非常棘手的问题。笔者建议,在这种情况下,不应过分关注统计学结果,而应该分析各组之间的差异是否有临床价值;如果没有临床价值,即使两两比较得出有统计学差异,笔者认为这种分析的价值也不高。如果有,可以采用 Mann-Whitney U 检验进行两两比较,注意校正检验水准。

实际上,笔者认为,统计和专业应该兼顾,不应该过分依赖于统计学。有些复杂的、有争论的统计学方法,且结果并不见得很可靠,对统计学结果的解释应该慎重,并充分考虑专业需要。

 

3 多个实验组相互对照

某研究欲分析和比较四种降压药(A、B、C、D)的降压效果。出于医学伦理学的考虑,不可能设立空白对照组(即不服用任何降压药),且研究的目的主要是确定四种药中哪一种药的降压效果更好。研究者将高血压病人随机分为四组,且假定每组的基线血压值完全相同,然后让患者分别服用四种降压药,一个月以后,检测患者的血压水平,分析各个药物岁收缩压的降低幅度(服药后的收缩压-服药前的收缩压)。研究者得出如下数据:

表4 四种降压药的降压效果比较

 

对于此类数据,还是采用老方法,首先用单因素方差分析或者 Kruskal-Wallis H 检验明确总体上是否有差异,之后再进行两两比较。之所以要进行任意两组的比较,是因为研究这想明确 ABCD 四种药里面哪一种药的降压幅度最大。

如果数据服从正态分布,根据表3,单因素方差分析后应该采用 SNK-Q 法。如果数据部服从正态分布,在 Kruskal-Wallis H 检验后应该采用 Nemenyi 检验或 Mann-Whitney U 检验法。此时同样面临着“方法不够公认、结论不够稳健”的问题,需要结合专业进行讨论。

4 结语

多组比较后是否需要进行组间比较?是一个十分复杂的问题,本文所列举的例子也仅仅考虑了完全随机设计,如果还随机区组设计,问题就会变得更复杂。实际上,笔者认为:在医学研究中,应该围绕临床需求建立自己的研究假说,围绕研究假说开展研究,不要盲目将验研究内容设定得很宽泛,以至于最终出现 “无公认统计学方法可用”的窘境。比如上述降压药的研究,研究者就应该仔细思考:到底四个药物的比较有没有临床价值?或者临床上是否需要明确这个问题?如果临床上本身没有这方面的需求,只是作者出于好奇去比较了四个药的降压效果,这种研究就没有任何价值了。

笔者|胡志德,AME 学术沙龙委员、Section Editor (Systematic Review and Meta-analysis),《傻瓜统计学》主编之一,以第一作者或通讯作者身份发表SCI论文十余篇。

 

往期文章阅读:

 

本文题图来自网络。

本文由「 AME 科研时间」首发,媒体转载请注明出处。让我们一起爱临床,爱科研,也爱听故事。

点击链接可进入微店购买《傻瓜统计学》。http://wd.koudai.com/item.html?itemID=1422304273&p=-1

doi:

10.3978/kysj.2014.1.1049
comments powered by Disqus

附件