微信直播

AME统计017| 样本量估计那些事儿

Published at: 2015年第1卷第S1期

胡志德
关键词:

编者按:上周,《傻瓜统计学》两位主编胡志德、周支瑞医生与 AME 编辑携新书进行了“七城巡讲”活动,反响热烈。近期,「AME 科研时间」将继续推出《傻瓜统计学》主编之一胡志德医生撰写的精彩统计学文章,以飨读者。

近年来,在临床研究中,“样本量估计”这个词十分时髦。只要给稍微像样点的杂志投临床研究类论文,审稿人多半会习惯性地问一下:样本量是如何计算出来的?很多同行在开展临床科研之前,由于没有事先经过样本量估算,以至于到投稿的时候被审稿人撞个正着,被问得直接下不了台。在本文中,笔者拟谈一些关于样本量估计的基本问题,帮助大家正确理解样本量估计的重要性。

我们首先来看一个医学科研中的怪现象,这个例子在《傻瓜统计学》一书中曾有谈及,在此赘述一下。

路人甲研究帕洛西汀治疗抑郁症,他收集了 80 例男性抑郁症患者,其中 40 例接受了帕洛西汀治疗,另外 40 例接受安慰剂治疗。得到表 1 所示的结果:

表1 帕洛西汀治疗男性抑郁症的效果观察

 

这种资料属于典型的“率的比较”,经卡方检验后作者发现 P=0.0679,因此路人甲认为:帕罗西汀治疗抑郁症的有效率和安慰剂的有效率之间的差异无统计学意义,换而言之:帕洛西汀对治疗男性抑郁症无效!

路人乙也在研究这个课题,不过他研究的是女性抑郁症患者,他的研究结果与路人甲出奇地相似。统计结果也表明 P=0.0679,因此路人乙认为:帕洛西汀对治疗女性抑郁症无效。

路人丙是路人甲和路人乙的朋友,他闲着无聊就把路人甲和路人乙的结果一起拿来进行了分析,得出下表:

表2 帕洛西汀治疗人类抑郁症的效果观察

表 2 经卡方检验后,P=0.0098,因此路人丙认为:安慰剂和帕罗西汀之间有效率的差异是有统计学意义的,帕洛西汀对治疗人类抑郁症有效。

这三项研究的结果可能会令很多同行头皮发麻。这药咋回事?对男性无效,对女性也无效,对人类却有效?这不是滑天下之大稽吗?

在路人甲和路人乙的研究中,帕洛西汀的有效率是 70% (28/40) ,而安慰剂的疗效仅为 50%(20/40),看起来似乎帕洛西汀更好一点,但统计学结果表明帕洛西汀和安慰剂的效果其实是一样的。在路人丙开展的研究中,帕洛西汀的有效率也是 70% (56/80) ,安慰剂的疗效也是 50%(40/80),为什么统计学结果却表明帕洛西汀优于安慰剂呢?

这个案例就说明:相同的研究方案,样本量越大,越容易有统计学差异!

有的临床研究中,差异虽然十分明显,但是由于样本量较小,可能无法从统计学上得出有差异。比如本研究中,帕洛西汀将抑郁症的疗效从 50% 提高到了 70% ,站在临床医学的角度来讲,这是一个十分伟大的进步,但是由于路人甲和路人乙的样本量太小了,所以无法从统计学上得知帕洛西汀的疗效是否优于安慰剂。

为什么样本量越大,越容易有统计学差异呢?这里面隐含一个 I 类误差和 II 类误差的基本统计学概念。笔者通过以下案例来帮助大家理解:

医学研究很多时候根据抽取的样本去推断总体的情况,因为研究总体实在是不切实际。比如要研究帕罗西汀治疗抑郁症的效果,总不可能把全世界所有的抑郁症患者集合起来,一半接受帕罗西汀治疗,另一半接受安慰剂治疗吧。因此,只能采用抽样的方式,抽取一些患者接受帕罗西汀治疗,另一些患者接受安慰剂治疗。既然是抽样,就难免出现抽样误差,或者说随机误差。假定真实的情况是:帕罗西汀和安慰剂治疗抑郁症的有效率都是 50%。但是研究者在抽样时,由于“手气太好”,老是抽到对帕罗西汀有反应的患者,结果发现帕罗西汀治疗抑郁症的有效率居然是 70%,远远高于安慰剂的 50%。这时,我们需要去进行统计学检验,分析有效率上这 20% 的差异是否属于“手气问题”,或者说抽样误差。假定我们发现 P 值为 0.01,其实就是说:当然不能排除帕罗西汀和安慰剂治疗抑郁症有效率上的差异是由于“手气问题”(抽样误差)造成的,但是这种事情的可能性仅为 1%(P=0.01)。这个 1%,其实就是 I 类误差的概率,或者说我们观察到的差异是属于随机误差的概率。

与 I 类误差相对应的一个概念就是 II 类误差,其实就是指实验组和对照组之间是有差异的,但是由于抽取的样本太小,不具备代表性,导致二者在统计学上没有差异。

我们假定帕罗西汀治疗抑郁症的有效率其实是 70%,安慰剂的有效率其实只有 50%。注意,这个有效率是总体有效率,是我们假定出来的,也就是说,如果让全世界的抑郁症患者来接受帕罗西汀(或安慰剂)治疗的话,其有效率是 70%(50%)。然而,我们去开展这个研究的时候,需要从总体中进行抽样,通过样本来反映总体的情况。假定帕罗西汀组和安慰剂组都只有两个病人。我们从接受帕罗西汀治疗的患者(总体)中去抽取两个患者(样本),很有可能抽到 2 个治疗无效的患者,结果发现在抽取的样本中,帕罗西汀治疗的有效率是 0%。另一方面,我们从接受安慰剂治疗的患者(总体)中去抽取两个患者(样本),很有可能是两个对安慰剂有反应的患者,这样一来,安慰剂的疗效是 100%。很明显,这一结论与现实状况完全就是背离的,原因就在于 2 个样本不能很好地反映总体的情况。如果我们将两组样本均加大到 200,情况可能就不一样了。毕竟,在接受帕罗西汀治疗的患者中,70% 的人是有效的。在此情况下,如果还有人能连续抽到 200 个治疗无效的患者,甚至抽到 100 个治疗无效的患者,那就只能说这是“神一般”的手气了。

综上,II 类误差产生的根源实际上就是一个样本的代表性问题。小样本的研究由于样本代表性差,不能很好地反映总体,所以经常无法检查到总体之间本身就存在的差异。相反,大样本的研究代表性很好,更容易发现差异。

可能有读者看完此文后心中暗喜:这下好了,凡是没有统计学差异的研究,我就加大样本量,肯定能得出有统计学差异。确实,理论上讲,只要你的样本量足够大,任何两组数据都会有统计学差异(暂且不讨论为此付出的财力、物力和人力),但是有统计学意义不一定意味着有专业意义。我们来看下面这个关于帕罗西汀治疗抑郁症的研究。

表3 帕洛西汀治疗抑郁症的效果观察

 

卡方检验结果显示 P=0.95,帕罗西汀和安慰剂的疗效相当。

研究者得到这个结果后觉得不满意,希望通过加大样本量来得到统计学意义,于是他将样本量扩大了 1000 倍,得出下表:

表4 帕洛西汀治疗抑郁症的效果观察

 

卡方检验结果显示,P=0.0498,提示两组的差异具有统计学意义。但是问题在于:帕罗西汀的有效率为 46.66%(70000/150000),安慰剂的有效率为46.30%(69000/149000),二者仅仅相差 0.36%,根据专业可知,这种疗效上的差异几乎是可以忽略不计的,因为判断是否有效是一种主观的行为,本身有一定的误差,且这种误差可能大于 0.36%。因此,虽然具有统计学意义,但是不具备专业意义。

其实,对于任何一个统计学结果的解读应该是先看差异是否具有专业意义,然后再看是否具有统计学意义。如果差异具有专业意义,但是不具备统计学意义,提示作者需要加大样本量。其实,严格来讲,任何研究在开展之前都应该经过样本量估计,以避免出现假阴性结果。如果差异具备统计学意义,但是不具备专业意义,说明研究无任何价值。

那么,样本量该如何估计呢?

这是个十分复杂的问题,因为不同的实验设计类型具有不同的样本量估计方案,只要我们牢牢掌握了 I 类误差和 II 类误差的概念,在软件操作中填写相应的参数即可。笔者将在后续章节中演示如何用 Sigmaplot 估计样本量。

笔者|胡志德,AME 学术沙龙委员、Section Editor (Systematic Review and Meta-analysis),《傻瓜统计学》主编之一,以第一作者或通讯作者身份发表SCI论文十余篇。

 

往期文章阅读:

多重线性回归的 SPSS 软件实现

二分类 Logistic 回归在 SPSS 软件中的实现

COX 回归的 SPSS 软件实现

 

本文题图来自网络。

 

本文由「 AME 科研时间」首发,媒体转载请注明出处。让我们一起爱临床,爱科研,也爱听故事。

点击链接,可进入微店购买《傻瓜统计学》。http://wd.koudai.com/item.html?itemID=1422304273&p=-1

Doi:

10.3978/kysj.2014.1.1034
comments powered by Disqus

附件