关于切尾均值
平均数是大家耳熟能详的一个名词,可能也是被使用和被误解最多的一个统计名词。平均数分为很多种,常见的有算术平均数、几何平均数、调和平均数等,另外还有一些虽然不是平均数但作用相近的数字,比如中位数、众数等。大家平常说的平均数一般指的是算术平均数,也叫均值,即将所有数字相加再除以数字个数后得到的数字。
平均数一般用于表示统计对象的一般水平。什么是一般水平呢,就是说我知道这个数字后,对统计对象就能有一个大概的认识。比如如果我告诉你,这个班的学生的平均身高是 1 米 5,那么你在名单上随意选中一个学生时,你就会比较有把握地相信这位学生的身高应该在 1 米 5 左右,可能会有一些偏差,但基本上不会差得太多(比如他不太可能会是一位只有 50 厘米高的小矮人,也不太可能会是一位高达 4 米的巨人)。
在很多时候,平均数都能帮助我们了解事物,比如上面身高的例子。但是,平均数并不完美,有一些情况下使用平均数会让我们得到意外的结果。比如说,根据二八定律,大量的财富掌握在少量的人手里,具体一点来说,在一个公司里,老板的年薪可能有 105 万,普通职工则可能只有 5 万,如果这家公司有 1 位老板和 9 位普通职工,那么他们的平均年薪则是 15 万,你从这个平均数中能得到什么信息呢?
显然,如果你从这家公司里随意选一个人,他的年薪一定不是 15 万,并且差得还很多(要么是 5 万,要么是 105 万)。大量的普通员工得知这个统计结果后,会抱怨自己被高收入了,或者调侃自己拖后腿了,因为 15 万这个值与数量占绝对优势的大部分人来说差得太远了。
这也是平均数经常被人诟病的原因,因为有时候群体中可能会出现少量的异常值,这些异常值会显著地拉高或降低均值。
就算我们观察的数据中没有二八定律,有时由于各种原因造成的误差也会让平均数失效。比如在录入平均身高时,如果操作员不小心少打了一个小数点,将某位同学的身高输入成 175 米(本来应该是 1.75 米),那么班级的平均身高也会因为这个错误的异常值突然增大很多。当然,就这个例子来说,这个录入错误可能很容易被发现,因为对我们而言人类的身高范围是常识,但是有时我们面对的是一些我们不那么熟悉的事物,或者面对的是海量的数据,这时要从中找出这些错误的值恐怕就不那么容易了。
虽然有很多方法可以帮助我们过滤掉异常值,但大部分都比较复杂,或者不那么容易理解。相对来说,切尾均值(truncated mean,或trimmed mean,也译作修剪均值、截尾均值)是其中最直观并且效果也很不错的方法。
如同名字所暗示的,切尾均值需要丢弃一部分数据。具体做法是,将所有数据从小到大(或从大到小)排序,然后将最前面的 a% 和最后面的 a% 丢弃,再求剩下数据的均值。
我在《关于页面停留时间》一文中曾经介绍过这种方法,一个示意图如下:
上图的例子中丢弃了前后25%的数据,这种情况下得到的结果也叫作四分位均值(interquartile mean)。你也可以选择其他的比例,比如前后各丢弃 10% 的数据,实践中丢弃的比例一般在 5%~25% 之间。
我们很容易就能发现,切尾均值通常能够有效地避免异常值的影响。当考察的样本的分布类似像人的身高这样(正态分布)时,切尾均值理论上和算术平均数的值应该相等,当样本中存在极端的异常值时,切尾均值又能有效地避免或减小这些异常值的影响(与普通均值相比鲁棒性更好)。
切尾均值通常与中位数很接近,但与中位数相比,它包含了更多的样本信息,因此通常认为它更能反应统计对象的一般水平。
还有一些类似的均值与切尾均值一样不易受异常值的影响,比如三均值(trimean)。三均值也需要将样本按大小排序,然后按个数平均分为 4 份,并取得对应的三个四分位数 Q1、Q2、Q3,其第二四分位 Q2 在计算时将具有双倍的权重。如下面的公式所示:
注意到第二四分位 Q2 实际上就是中位数,三均值实际上是在中位数的基础上增加了一些对样本分布的考虑,因此比中位数包含了更多的样本信息。但是它毕竟只使用了三个四分位的值,看起来更像是中位数与四分位均值之间的一种折衷。
总的来说,切尾均值(比如四分位均值)是一个更为稳定也更能反应实际的统计量,值得在分析过程中使用并长期关注。
最后,还是不太清楚切尾均值是什么?其实你一定已经听说或者看别人用过它了,比如各种比赛中,评委打完分后,计算过程经常是去掉一个最低分,再去掉一个最高分,剩下的分数求平均作为选手的最终成绩。是的,这就是切尾均值。现在,你得到它了!
评论:
没看懂……数学太差了
呃……,粽粽在逗我吧?你要看不懂,我得重写了…… T_T
在学校里统计学就没学好,工作又用不到,都忘光了……
哦……是不是以前那种,去掉一个最高分去掉一个最低分,就是这个方法?
oops,才看到最后一段,果然是这样……
you got it! :)
Great weblog. Thanks
建议换个theme哈,用户体验真不好:)
有什么好用的theme推荐么?一直没找到满意的,也一直没空自己写。