统计不是“把一堆数算一遍”,而是把一堆杂乱的信息,整理成别人能看懂、能检查、能讨论的结论。
上一章我们在几何里反复见到“量”:长度、面积、体积、角度。量东西时,多量几次取平均,是为了减少偶然误差。
这一章的统计也是同一条线:我们面对一组数据,想回答三个朴素问题。
这组数据的典型水平是多少?
它们散得有多开?
能不能用表格或图,把情况讲清楚?
听起来很生活化,但数学上要严谨。平均数、中位数、众数、极差、频率、统计图,每个工具都有自己的适用范围。乱用工具,结论就会很像“看着有道理,其实没说准”。
很多同学一看到数据就开始加起来除以个数。
别急。
统计题第一步不是算,而是看清问题。
研究对象是谁?是一批学生、一周气温,还是一条生产线上的零件?
记录的变量是什么?身高、分数、用时这种能计算的,是数值型变量;血型、颜色、选课小组这种只能分类的,是类别型变量。
题目到底要什么?问“典型水平”,通常看平均数、中位数、众数;问“散得多开”,可以先看极差;问“各类占多少”,就要整理频数和频率。
还要顺手检查数据有没有明显离谱的地方。比如身高写成 ,很可能不是“天赋异禀”,而是录入错了。
课堂题通常默认数据干净。但现实里,先过一眼数据,是统计里很重要的基本功。
拿到一组数据,常见第一步是排序。
排序不是形式主义。中位数要排序,最大值最小值要排序,异常值也常常靠排序才容易发现。
如果数据很多,一个个看就很累。更好的做法是分类或分组,然后统计每类出现了几次。
某一类出现的次数,叫频数,常记作 。
总数据个数是 时,第 类的频率是
频数是“几个”,频率是“占多少”。
比如 40 人里有 9 人选数学,频数是 ,频率是
频率有一个很好用的自检:所有类别的频率加起来必须是 ,也就是 。
如果加出来是 或 ,先别急着写答案,八成是漏数、重复数,或者小数百分数换错了。
平均数最像日常语言里的“总体水平”。
它的核心直觉是:把所有数据的总量合在一起,再平均分给每一个数据。
对 个数据 ,算术平均数定义为
这不是神秘公式,就是“总和除以个数”。
但平均数有一个很大的性格特点:它会被极端值拉动。
因为极端值也参与总和。总和一变,平均分到每个人身上的数也跟着变。

平均数不是“大多数人的水平”。平均数只说明“总量平均分后是多少”。如果数据里有特别大或特别小的值,只看平均数很容易误判。
例 1 某次小测成绩为 分。求算术平均数、中位数、众数和极差。
先算平均数。六个成绩总和为
所以
同一组数据,平均数约 ,中位数 ,众数 。
三个数不一样很正常。它们回答的不是同一个问题。
中位数的想法很朴素:把数据从小到大排队,站在中间的那个,就是中位数。
如果排序后的数据是
那么当 为奇数时,中位数是第 个数据:
当 为偶数时,中间有两个位置,中位数取它们的平均:
这里最容易错的地方就一句话:没排序就取中间,是无效操作。
题目给的数据顺序可能是学号顺序、时间顺序、录入顺序,不一定是大小顺序。
中位数还有一个优点:它不太怕极端值。
例 2 某社区 5 户月收入(千元)为 。用平均数和中位数分别描述典型收入水平。
先算平均数:
所以,看到收入、房价、工资这类数据,最好不要只问平均数。
平均数和中位数一起看,信息才完整。
众数是出现次数最多的取值。
注意,是“最常见”,不是“最大”。
对数值型数据,数每个数值出现几次。
对类别型数据,数每个类别出现几次。
众数可能有一个,也可能有多个,还可能没有。
如果两个或更多取值并列出现次数最多,它们都是众数。
如果每个取值都只出现一次,就没有众数。
众数特别适合类别型数据。比如颜色偏好、选课小组、血型,没法求平均数,也没法排中位数,但可以看哪个类别最多。
例 3 某班 40 人选择课外小组:数学 9 人,编程 12 人,美术 7 人,体育 12 人。判断众数,并求“选数学”的频率。
变量是“选择的小组”,属于类别型数据。
编程和体育都是 人,并列最多。
所以众数有两个:编程组和体育组。
总人数为
这里如果有人说“众数是 12”,就错了。
是频数,不是小组类别。众数应该是“编程组”和“体育组”。
极差是最简单的分散程度指标。
对数值数据,极差定义为
它的优点是好算,一眼能看出数据跨度。
它的缺点也非常明显:只看两端,不看中间。
中间的数据是整齐挤在一起,还是分得很散,极差都不告诉你。

看一个极短对比。
甲组数据是 。中位数 ,平均数 ,极差 。
乙组数据是 。中位数还是 ,但平均数是
极差是
只看中位数,两组像是一样。
加上平均数和极差,差别马上出来。
这就是统计里很重要的一条经验:一个指标通常不够,至少要知道它没告诉你什么。
统计图的作用,是把数据变成视觉信息。
但视觉信息有个问题:它很快,也很容易误导。
条形图适合比较互不重叠的类别,比如各小组人数、各城市降水量。
读条形图时,先看纵轴是不是从 开始。
如果纵轴从 、 或 开始,柱子的高度差会被放大。实际差一点点,看起来可能像差很多。
折线图适合有自然顺序的数据,尤其是时间序列,比如一周气温、某产品每月销量。
如果类别没有顺序,比如血型、颜色偏好,就别硬连线。线会让人误以为中间有“变化趋势”。
扇形图适合看各部分占整体多少。
如果某类频率是 ,对应圆心角就是
比如 对应
扇形图的所有圆心角加起来必须是 。

条形图的纵轴如果不从 开始,视觉差异可能被夸大。读图时一定要看标题、单位、坐标轴起点,再判断差距到底有多大。
读统计图,可以固定三步。
第一,看标题和单位:图在说谁?单位是人、元、分,还是百分比?
第二,看坐标轴和比例:尤其是条形图,纵轴从几开始?
第三,看结论有没有越界:图能说明相关,不等于直接证明因果。
比如“运动时间多的同学成绩更高”可以是相关。
但要说“运动导致成绩提高”,还需要更多证据。
扇形图和频率可以互相换。
已知频率,可以算圆心角。
已知圆心角,也可以反推频率和人数。
例 4 某班共 48 人。课外阅读时间的扇形图中,“每天不低于 1 小时”对应圆心角为 。求这部分学生的人数与频率。
先把圆心角换成频率。
整个圆是 ,所以
这里的顺序很稳:角度先除以 ,得到占比;占比再乘总人数,得到人数。
学完频率,很自然会问:如果硬币抛很多很多次,正面向上的频率会不会稳定在某个数附近?
这个问题就把统计带到了概率。
在最简单的等可能有限模型里,所有结果数量有限,而且每个结果出现的机会相同。
如果样本空间共有 个等可能结果,事件 包含其中 个结果,那么
这句话翻译成人话就是:概率等于有利结果数除以全部可能结果数。
关键前提是“等可能”。
均匀骰子可以用这个模型。
没洗匀的牌、不均匀的硬币,就不能直接套这个公式。
例 5 掷一枚均匀的六面骰子,求向上一面为偶数的概率。
样本空间是
共有 个等可能结果。
概率不是拍脑袋说“可能很大”。
在等可能模型里,它就是一个可以数出来的比例。
还有一种平均数非常常见:加权平均数。
如果第 组代表值是 ,频数是 ,总数是
那么加权平均数是
这里的 就是在告诉你:这个值重复了多少次、占多大分量。
如果权重已经直接给成百分比,比如 、、,那就把百分比化成小数相乘再相加。
例 6 某门课程总评由三部分构成:平时练习占 ,期中考占 ,期末考占 。某生三部分得分依次为 、、。求总评分。
先把权重写成小数,并检查和是否为 :
计算加权平均数:
加权平均数的本质是:不同部分的重要程度不同,就不能假装它们一样重。
这一部分其实就抓住几个重点:
练习 1 数据 的众数、中位数和算术平均数分别是多少?
数据已排好序,共 个,是奇数个。
中位数是第 个数据,即 。
出现 次,其他数各出现 次,所以众数是 。
算术平均数为
练习 2 数据 的中位数是多少?
数据已排好序,共 个,是偶数个。
中位数取第 个和第 个数据的平均:
中位数不一定必须出现在原数据中, 是完全正常的答案。
练习 3 若某频数表四类的频数分别为 ,是否有众数?
四类频数完全相同,没有哪一类比其他类更常见。
按“出现次数最多且能体现集中趋势”的理解,这组类别数据没有单独的众数。
有的教材也会说四类并列为众数。答题时要跟教材约定走,但不能强行只指定其中一类。
练习 4 极差是否可能为 ?如果可能,给一个例子。
可能。
当所有数据都相等时,最大值等于最小值,所以
例如 的极差就是 。
练习 5 甲投篮 3 次,得分为 ;乙投篮 5 次,得分为 。分别求两人的平均得分,并说明比较总得分还是平均得分更公平。
甲总得分为
平均得分为
乙总得分为
求中位数前先确认排序。题目给出的顺序已经从小到大排好。
共有 个数据,是偶数个。中位数取第 个和第 个数据的平均:
众数看出现次数最多的值。
出现了 次,其他分数都只出现 次,所以众数是 。
极差看最大值与最小值之差:
这说明这组成绩的跨度是 分。
数据已按从小到大排列, 是奇数。
中位数是第 个数据:
比较两个结果。
平均数 千元被 千元这户明显拉高,甚至高于前四户所有人的收入。
中位数 千元表示排在中间那户的水平,更接近“多数家庭大概在哪里”。
“选数学”的频率是
验算一下,四类频率之和是
再把频率换成人数:
验算:
所以频率为 ,也就是约 ;人数是 人。
偶数事件为
包含 个有利结果。
所以
如果误用简单平均,会得到
这次差距不大,是因为三项分数比较接近。
但原则上,总评规则给了权重,就必须按权重算。
答案:众数 ,中位数 ,平均数 。
平均得分为
直接比总得分不公平,因为两人投篮次数不同。
比平均得分更公平,它比较的是每次投篮的效率。