统计数据无处不在,我们每天都会遇到。无论喜欢与否我们都要用到统计数据。
要知道你到底在说什么
已故统计天才汉斯·罗斯林(Hans Rosling,1948—2017) 指出,在瑞典生活的人平均拥有不到 2 条腿。所有人的腿都不超过 2 条,少数人少于 2 条,所以平均之后略低于 2 条。这就意味着几乎每个瑞典人(实际上全世界所有人几乎都是如此)的腿数都高于平均水平。这个平均数根本不可能真实反映瑞典的情况。
上面这个例子很好地说明了关于平均数的一个问题:尽管计算是正确的,但得出的平均数毫无意义,因为它忽略了数字代表的含义,而且得出的平均数无法说明数据集中那些真实的人的任何特征。
本文将讨论平均数,以及如何利用平均数深入理解一组数据或者让它变得难以理解。我们将发现平均数非常有用, 具有某种代表性,但它不一定就是某个范围的中点,未必能帮助我们全面掌握所有数据的特点。这种方法通过一个数字告诉我们关于整个数据集的某些有用信息,但它可能无法体现其中的极端情况以及数字的分散性。然而,新闻中一直在使用平均数,而且通常情况下没有人提出质疑。本文涉及很多数字,但不用担心——所有计算都非常容易。
如何计算算术平均数、中位数和众数
你可能会遇到三种表示平均数(average)的方法:算术平均数(mean)、中位数(median) 和众数(mode)。算术平均数就是把所有数加起来,除以数的个数后得到的值。举个例子。假设你是一名板球运动员。在赛季结束时,如果你想知道你在本赛季的平均得分,就可以把你的攻方得分相加,然后除以你击球的次数。(是的,板球爱好者,我知道你们需要考虑自己“不出局”的次数,但任何见过我击球的人都会知道,为什么我不太关心这个问题。)当人们提到平均数时,通常指的是算术平均数。
中位数是中间的数。假设一个班级有 29 人。为了求出他们考试成绩的中位数,你把他们的成绩按顺序排列,那么第 15 名的成绩就是你要的答案。如果班上有 30 名学生,中位数就是第 15 名和第 16 名的成绩的中间值。
众数很少使用,但偶尔也会发挥作用——众数就是出现频率最高的那个数字。如果你想知道法国职业足球运动员年龄的众数,就要找出哪个年龄的球员最多。如果你调查的是人们上班时使用的交通方式,众数就是非常有用的数据了, 因为它告诉你的是使用哪种交通方式的人最多。
众数还有一个很大的用处。比如,我们可以猜测一下 1964 年英格兰和威尔士人的平均死亡年龄。死亡年龄的算术平均数是 65,也就是说,如果你把这一年所有死亡者的年龄加起来再除以死亡人数,就会得到这个数字。众数表示的则是哪个年龄的死亡人数最多。而在 1964 年,这个数字是零。
在一岁之前死亡的人比其他任何年龄的人都多。在 1964 年, 这并不是一个奇怪现象,因为在此之前的大多数年份都是如此,但从那以后就不是这样了。这个我们现在觉得令人震惊的现象,恰恰是对医疗卫生,尤其是对助产和新生儿重症监护领域取得显著发展献上的一支赞歌。2016 年,英国死亡年龄的众数是 86,算术平均数是 78。如果你感兴趣,我也可以告诉你,中位数是 81。
为什么必须区分清楚呢?有时你会听到有人说平均数, 你会想当然地以为是算术平均数,而实际上他们说的是中位数。两者有可能大不相同。
我们以 2018 年 5 月阿尔塞纳·温格作为阿森纳足球俱乐部主教练对阵伯恩利的最后一场主场比赛中首发阵容的年龄为例。
▲ 表 5-1 阿森纳对阵伯恩利最后一场主场比赛中首发阵容的球员年龄一览
我们先计算算术平均数。把这些年龄加起来,和是 281。然后除以球员人数 11,就可以求出年龄的算术平均数为 25.5。要求出中位数,我们需要把所有的年龄按顺序排列:20,22,23,23,24,25,26,26,28,29,35。
然后,找出中间那个数字,也就是第 6 个数字,因为对这个球员来说,有一半人的年龄比他大,另一半人的年龄比他小。处于中位数位置上的球员是 25 岁的格拉尼特·扎卡。众数有两个,分别是 23 和 26(因为分别有两名球员的年龄是 23 岁和 26 岁)。
算术平均数和中位数非常接近,都可以广泛地代表出现在当天阿森纳队阵容中不同年龄的球员。
现在,假设在 5∶0 的比分下,温格先生觉得他已经厌倦了在场边看比赛,因此在他的第 826 场英超联赛中,他决定亲自上场,向年轻人展示球是怎么踢的。他热身完毕,脱下外套,露出一套崭新的红白相间的球衣,然后让第四裁判举牌换人,自己换下了场上最年轻的球员康斯坦丁诺斯·马夫罗帕诺斯。
我们看看 68 岁的温格对场上球员年龄的平均数产生什么影响。现在,所有人的年龄总和是 329。除以 11,得数略小于 30,这比之前的算术平均数 25.5 大。为了求中位数,我们需要再一次把年龄按顺序写出来:22,23,23,24,25,26,26,28,29,35,68。
这一次,位于中间(也就是第 6 个)数字是 26,比之前的中位数大了一岁。众数没有变化。
我们添加的是一个与其他数据大不相同的数字——统计学家称为离群值。算术平均数变大了很多,比除了两名球员以外的所有球员的年龄都要大,但是中位数只发生了很小的变化。
这就是问题的关键——通常情况下,如果你不希望平均数被离群值影响,就可以使用中位数。
我们再取一组数据,以确保你熟练掌握这些内容。以 2017 年《舞动奇迹》的明星阵容的年龄为例。这组数据给了我很多乐趣,因为我可以检验“现实核查”小组是否有可能在中途可靠地预测哪些选手组合会进入决赛。我发现,选手组合当前的得分是个很好的线索,各位选手在桑巴、伦巴、恰恰和摇摆舞上的得分往往略低(这两个现象并非没有道理)。最有趣的是,尽管从开播以来的 14 期节目看,选手们的得分似乎越来越高,但这实际上是因为随着节目一期一期地继续,明星们的经验越来越丰富,所以可以拿到更高的分数。但是,我以及和我合作的统计学家们都没有发现这个系统存在明显的偏倚。
以下是这 15 位名人以及他们在 2017 年 9 月 9 日组队时的年龄。
▲ 表 5-2 《舞动奇迹》舞者年龄一览
我们从算术平均数开始。所有年龄相加,和是 627。除以舞者人数 15,得数是 41.8。要找出中位数,就必须把年龄排序,然后选取排在中间的那个数。年龄由小到大依次为:24,29,29,30,32,35,41,42,42,43,54,55,56,57,58。
中位数是第 8 个数,也就是 42。可以看出,算术平均数和中位数非常接近。众数有两个,分别是 29 和 42。
现在,假设世界上年龄最大的人也参加了《舞动奇迹》。他们当然是名人,但如果他们没有很快遭到淘汰的话,你肯定会感到惊讶。要找出我创作本书时全世界年龄最大的人到底是谁无疑吃力不讨好,我们姑且假设他的年龄是 117 岁吧。现在,年龄总和变成了 744。将其除以新的参赛人数 16,就会得到算术平均数 46.5。
为了找出中位数,你把这位新加入者的年龄放在上述按序排列的年龄的末尾处。这一次,中位数不是第 8 个数,而是取第 8 和第 9 个数的中间值。在本例中,这没有任何区别, 中位数仍然是 42。众数也没有变化。
在本例中,由于出现了一个数值极大的离群值,因此算术平均数增加了 4.7 岁,但中位数和众数保持不变。算术平均数再一次因为离群值而发生了很大的变化——现在,16 名参赛者中有 10 名低于平均年龄。但中位数没有受到影响。
这些例子告诉我们,选择不同的平均数,会导致离群值对数据的影响程度发生变化。只要你解释清楚,选择哪一种平均数都不能说一定是错的,但你必须知道到底是怎么选的,因为存在被误导的巨大危险。
上文 [遇见] 经授权节选自中信出版·鹦鹉螺《别说你懂统计学》
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.