微信直播

AME统计026|标准差和标准误:两个经常把人弄晕的概念

Published at: 2015年第1卷第S1期

胡志德
关键词:

在医学统计学中,有两个基本的概念:标准差(SD)和标准误(SEM)。据笔者观察,很多医学研究者,特别是很多刚走上医学科研道路的研究生,常常分不清楚标准差和标准误的区别,以至于经常经常出现一些令人啼笑皆非的事情。在此,笔者拟简要阐述标准差和标准误的区别,并引申出“参考范围”和“95% 可信区”间这两个同样被经常混淆的概念。

1、标准差与参考范围

标准差这个概念最好理解,在初中数学教科书上就有过比较清晰的解释。简而言之,标准差反映的是数据的离散程度,或者说波动幅度。打个比方,有一项研究拟调查黑龙江和海南省居民的个人年收入状况,结果发现黑龙江省居民个人年收入的标准差较大,而海南省的个人年收入的标准差很小。这一结果所暗含的意思就是:黑龙江省的贫富差距很大,而海南省则贫富差距很小。因为一个省内所有居民年收入的离散程度其实就是指“贫富差距”问题。假定海南省每个人的年收入都是一样的,其标准差自然就为0了,即数据一点都不存在“离散”问题,海南省不存在贫富差距问题。

在医学上,利用均数(mean)和标准差(SD)可以计算某一个实验室检查的参考范围,其做法就是取该实验室检查95%的分布区间作为参考范围。比如:目前需要确认血钾的参考范围,标准的做法就是:首先需要去检测一部分(通常为100个样本以上)健康个体的血钾浓度。然后绘制出其分布状况(如图1所示)的直方图。根据专业知识可知,健康个体的血钾不可能太高,也不可能太低,经过正态性检验后发现血钾在健康个体中的分布完全是呈正态的(过程略)。因此,就设定数据95%分布范围作为参考范围。众所周知,在正态分布曲线中,mean-1.96×SD 与 mean+1.96×SD 所涵盖的区间刚好覆盖了 95% 的样本,因此参考范围的下限就是 mean-1.96×SD,约为 3.5 mmol/L;参考范围的上线就是 mean+-1.96×SD,约为 5.5 mmol/L。换而言之,大约有 5% 的健康个体,血钾结果在参考范围以外,但仍然属于健康个体。

图1. 100名健康个体的血钾分布状况

当然,如果实验室指标不是呈正态分布的(比如肿瘤标志物),参考范围的制定就相对麻烦点了,由于不属于本文论述的范围,暂且不作讨论。

2、标准误与 95% 可信区间

在讨论标准误和 95% 可信区间之前,我们需要先将话题说远一点,谈谈医学研究的特点。医学研究最大的特点就是抽样调查,通过样本去推断总体。比如,某课题欲确定山西人的平均身高,理想的调查方案显然是把所有山西人的身高数据全部汇总起来,结果显示山西人们的平均身高是 178 cm,那自然可以理直气壮地得出结论:山西人的平均身高是 178 cm,这显然是最准确的数据(真实值)。但问题在于,在医学研究中,很多时候无法将某一特定的群体全部汇总起来,因为这个总体本身就是无法确定的。比如:要调查健康个体的平均甲胎蛋白(AFP)水平,总不能把所有健康个体的甲胎蛋白全部测一遍吧,即使财力上允许,这在技术上很不现实,因为“健康个体”本身就是一个概念上很模糊的总体。

既然研究总体不现实,那就研究样本吧。于是,人们抽取了 100 个健康个体,检测了其 AFP 水平,假设发现 AFP 平均水平为 100 ng/ml(标准差略),然后就用这 100 个人的结果去推断所有的健康个体,于是得出结论:健康个体的 AFP 平均水平是 100 ng/ml。这是目前最常用的研究方式,但是弊端显而易见:用样本去推断总体必然存在误差!简而言之,研究者抽取的这 100 个健康个体(样本)能代表所有的健康个体(总体)吗?从统计概率的角度来讲,完全可能出现以下情况:其实健康个体真实的 AFP 平均水平应该是 200 ng/ml,但是由于研究者在抽样时出现了抽样误差(手气问题),全部抽取到了 AFP 较低的健康个体,因此误认为健康个体的平均AFP的真实值是 100 ng/ml。

根据样本去推断总体这种研究方式有一个特点,就是样本量约大,越不容易出现抽样误差,结果也越准确。以上述健康个体平均 AFP 水平的问题为例,举个极端的例子:假定抽取的样本只有两人,AFP 当然也会有一个均值,但这两个健康个体(样本)的 AFP 平均水平可能与所有健康个体(总体)的平均 AFP 水平相距甚远。如果抽取的样本不是两个人,而是两万,结果就不一样了,毕竟在两万个样本出现抽样误差的概率是很小的。基于两万个样本的结果显然更加准确,更能反映总体的情况。

人们发现(这段是重点):当固定样本量(比如每次都抽 100 个健康个体)的时候,每次抽样后得到的平均值虽然不尽相同,但是总体而言,所有的平均值都呈正态分布的(这句话虽然不太严谨,但是为便于理解,大致可以这样认为)。用通俗的话来讲就是:假定张三抽取了 100 个健康个体,得到了一个平均 AFP(AFP1);李四采用和张三相同的方法再去抽取 100 个健康个体,得到了一个平均 AFP(AFP2);王五、赵六、钱七等人如法炮制,就会得到 AFP3、AFP4、AFP5 直至 AFPn。如果把这 n 个 AFP 均值汇总起来,会发现这些均值是呈正态分布的(如图2所示)。

图2. 100次抽样所获得的健康个体AFP均值的分布状况

需要注意的是:图 2 虽然与图 1 大致相似,但是绘制原理不同。图 1 中所有的血钾结果是基于每个个体的检测结果;图 2 中的每个 AFP 检测结果是一次抽样所得到的均值。这 n 个 AFP 均值的标准差就叫标准误(SEM)

可能有的读者读到这里就开始犯愁了。SEM 表示每次抽样获得的均数的标准差,因此,如果要获取 SEM,就必须做很多次抽样。既然有那个闲工夫做很多次一模一样的抽样,那为啥不把这些研究合在一起,做一个样本量很大的研究?这确实是个问题,好在统计学家帮助我们解决了。

SD 和 SEM 虽然是两个完全不同的概念,但是在数学上有一定的关联,如下所示:

     

简而言之,就是标准误(SEM)等于标准差(SD)除以样本量(N)的 0.5 次方。这一公式隐含的数据原理不必深究,对于非卫生统计专业人士而言,只需要记住该公式就行了。由上述公式可见,标准误考虑了样本量问题,仅需要知道一次抽样的样本量和得到的标准差,就可以计算其标准误了。样本量足够大时,标准误趋于0,说明样本量越大,结果越精确;样本量越小,标准误越大,说明小样本的研究得出的结果不稳定,可能不能很好地反映总体。

由标准误又衍生出了另一个概念,即 95% 可信区间(95% CI)。由图2可知,虽然每次抽样得到的AFP均值不尽相同,但是大致是围绕在 100 ng/ml左右的,且均数本身呈正态分布。因此人们提出:均数的 95% 分布范围就是 95% 可信区间。注意注意注意(重要的事情说三遍):个体 95% 的分布范围是参考范围;均数 95% 的分布范围才是 95% 可信区间!如图所示:

图3. 标准差与标准误的联系和区别

3、如何解读标准误以及 95% 可信区间结果

假如某研究调查了 100 名健康个体的 AFP 水平,计算得到均数是 100 ng/ml,标准差是 50 ng/ml。那么根据上述公式不能确定其标准误为

因此,95% 可信区间上限就是:100+1.96×5=109.8 ng/ml;95% 可信区间下限就是:100-1.96×5=90.2 ng/ml。因此,其结果可表达为:100 名健康个体患者的 AFP 平均水平为 100(95% CI:90.2-109.8)ng/ml。如果本研究旨在确定 AFP 的参考范围(假定 AFP 是呈正态分布的),那 AFP 参考范围的下限就是 100-1.96×50=2 ng/ml;参考范围上限就是 100+1.96×50=198 ng/ml。由此可见,参考范围和 95% 可信区间是两个不沾边的概念。

那么,95% 可信区间的结果该如何解读呢?以上述案例来说,健康个体患者的 AFP 水平 100 ng/ml(95% CI:90.2-109.8),其意义可以解读为:

1)健康个体的平均 AFP 水平的真实值有 95% 的可能性分布在 90.2 ng/ml至 109.8 ng/ml之间。

2)如果有人用相同的方案再去重复这个实验,尽管得到的平均 AFP 不一定是 100 ng/ml(因为有抽样误差的可能),但其得到的均值有 95% 的可能性在 90.2 ng/ml至 109.8 ng/ml之间。

假定在本研究中抽取的样本不是 100 个,而是 10000 个,那就可以算出标准误为 0.5,健康个体 AFP 平均水平为 100(95% CI:99.02-100.98)ng/ml。可见,当增大样本量以后,用样本去推断总体就更有把握了,表现为:标准误变小了,95% 可信区间也随之变窄了,AFP 平均水平的真实值也更容易被锁定了。

4、总结

标准差反映的是样本数据中每个数据的离散程度;标准误反映的是样本的代表性问题,即用样本去推断总体时潜在误差的大小。从统计学的角度来讲,大样本的研究之所以具有更高论证强度,就是因为研究的标准误较小,95% 可信区间较窄,因此结果更接近真实值!

笔者|胡志德,AME 学术沙龙委员、Section Editor (Systematic Review and Meta-analysis),《傻瓜统计学》主编之一,以第一作者或通讯作者身份发表SCI论文十余篇。

一年一度的购(duo)物(shou)节即将来临,你是否早早将心仪已久的好书揽入购物车,摩拳擦掌仍怕手慢?不怕,AME微店福利来了,何必等到双十一,错开高峰提前购。点击“阅读原文”有惊喜,赶紧来领取吧!http://huodong.weidian.com/juan/get.html?wfr=shop_coupon_share&coupon_id=745926&shop_id=260520116&from=timeline&isappinstalled=0
doi:
10.3978/kysj.2014.1.1294
comments powered by Disqus

附件