上一部分的《几何基础与测量》把「量」写进了公式:周长、面积、体积与角度,都依赖单位的统一;同一长度量多次,还会提到取平均来压低误差。 那里的「取平均」其实就是统计最基本的运算——把若干个观测值加起来再除以个数——只不过几何课里的语境是同一个量的重复测量,而统计要面对的是更一般的情形:一堆来自不同个体的数,如何用一个数、一张表、一幅图,把「典型水平」与「分散程度」说清楚。
这部分我们的核心目标不是堆砌公式,而是让三件事真正可检查:能够算出并解释中心指标(算术平均数、中位数、众数),能够算出极差并理解它的局限,以及能够从频数表与条形图里读出频率、做出不夸大的结论。
在动手计算之前,值得先想清楚一个统计问题的基本结构,否则容易「看见数据就套平均数」,最后算出一个在语境里毫无意义的数字。
每个统计问题都有一个研究对象:是一批学生、一段时间里的气温记录、还是某条生产线上的零件?弄清对象,是为了在回答问题时知道结论适用于谁。 研究对象确定之后,要问记录的变量是什么:变量可以是数值型的(身高、用时、分数),也可以是类别型的(血型、选择的科目、颜色偏好);不同类型的变量在后续图表与指标的选择上差别很大。再往下,要明确目的:是想知道这批数据的「典型水平」,还是想知道它们「散得有多开」,抑或是想看各类别各占多大比例?三个目的对应三种不同工具,混用会产生误解。最后还要检查数据的完整性与可靠性:有没有明显的录入错误(例如把一位同学的身高记成 3.2 m),有没有大量缺失?这些判断在实际研究中很重要,课堂题通常默认数据干净,但养成「先过一眼」的习惯,对后续学习有长远好处。
拿到一组数值数据,最先做的事往往是排序:把数值从小到大排好。排序看起来是繁琐的准备工作,但它是求中位数、识别极端值、以及确认数据是否有录入错误的前提。跳过排序直接计算,往往会在中位数的位置上出错,或者把最大值误认成一个普通的数。
当数据量较大时,逐个列出不如分组并统计频数来得直观。把所有可能的取值或区间列成一张表,数出每一类出现了多少次,就得到频数,记作 。如果总数据个数为 ,那么第 类的频率(也叫相对频率)就是
结果是一个介于 与 之间的小数,常常写成百分数。频率之和一定等于 (或 ),这是一个天然的自检工具:如果算完各组频率加起来不是 ,说明某处出了错。
频数和频率的区别值得在这里专门说一句,因为考试里频繁出现混用:频数是「个数」,频率是「比例」。条形图的纵轴如果没有标明单位,一定要先弄清楚画的是频数还是频率,否则读图时对「大」「小」的判断会出错。
算术平均数是最直觉性的「典型水平」:如果把所有数据的总量公平地分摊到每一个个体上,每个个体该分到多少?对 个数据 ,定义为
这个「公平分摊」的直觉很有用:假设一个班级一共考了 4750 分,共 6 人,那么平均分 告诉你,如果每人分数一样多,应该是这个数。这样一来,平均数为什么会被极端值拉动也就显而易见了——极端值参与了「总量」的计算,而「总量」被均摊时,极端值的影响就稀释进了每一个个体。
当数据已经分好组,第 组的代表值为 、频数为 ,且 ,那么直接对每条数据求和再除以 等价于:
这里的权数 正是第 组的频率。加权平均数与简单算术平均数的区别在于:如果各组代表的「个体数量」不同,简单地把代表值加起来除以组数,就等于默认每组权重相同,这几乎总是错的。

算术平均数容易被误读为「大多数人的水平」,但这两件事完全不同。平均数是全体数据按个数均摊的结果,与「频数最高的分数段」在位置上可能相差很远。想知道「多数人的水平」,需要看的是频数分布,而不仅仅是一个平均数。
下面通过一道例题把平均数、中位数与众数放在一起对比,让三个概念的差异在同一组数据里同时浮现。
例 1 某次小测成绩(分)为 ,试求算术平均数、中位数与众数,并计算极差。
算术平均数 直接对所有数据求和再除以个数。六个数据的总和为 ,因此
从这道例题可以看到,三个指标报告的是同一组数据的不同侧面:平均数约 ,中位数 ,众数 ——三者并不相等。在写解题过程时,切记要说明自己选的是哪个指标,以及为什么它适合回答当前问题,而不是把三个数都算出来然后沉默地收尾。
设排序后的数据依次记为 。当 为奇数时,正中间只有一个位置,即第 个数据,中位数便是 。当 为偶数时,正中间有两个相邻位置,分别是第 个与第 个,中位数取这两个数的算术平均。
这个定义看似简单,却是考试里丢分最多的地方之一,原因几乎总是忘记先排序。数据给出的顺序(比如时间顺序、编号顺序)与数值大小顺序通常不同,直接取「中间那行」会得到一个毫无意义的数。另一个常见错误是偶数个数据时只取其中一个(往往是第 个),漏掉了取平均的步骤。
中位数的另一个重要性质是对极端值的稳健性。下面这道例题把这一点放在一个足够极端的情境里展示,让对比足够清晰。
例 2 某社区 5 户月收入(千元)为 ,试用平均数与中位数分别描述「典型收入水平」。
计算算术平均数。五个数据之和为 ,故
众数的定义是出现次数最多的取值,而不是数值最大的那个,这一点初学者容易混淆。对数值型数据,要数每个数值出现了多少次;对类别型数据,要数每个类别出现了多少次。
众数有三种典型情形需要分别处理。最常见的情形是恰好有一个众数;其次是多个众数:若两个及以上取值并列频数最高,它们都是众数(两个时称双众数,三个以上类似);还有一种情形是无众数:若每个取值都只出现一次,则不存在众数,这时强行说「众数是某某值」是错误的。
众数的适用语境也值得说清楚。当数据是类别型时,平均数和中位数根本无从计算(你没法对「红色」和「蓝色」取平均),众数是唯一合理的「典型」指标。当数据是数值型但分布高度不均匀、有几个特别集中的聚集点时,众数能直接指出「哪个值最受青睐」。相比之下,若分布比较均匀、没有明显集中的峰值,众数就没什么信息量。
例 3 某班 40 人选课外小组,选择数学的 9 人,编程的 12 人,美术的 7 人,体育的 12 人。判断众数,并求「选数学」的频率。
变量是「选择的小组」,为类别型数据,各类别的频数已知:数学 ,编程 ,美术 ,体育 。编程与体育并列最高,均为 人,故存在两个众数:编程组与体育组。
对数值数据,极差定义为最大值与最小值之差:
极差的优点是计算极为简单,一眼就能看出数据的「覆盖范围」有多宽。但它的局限也同样明显:极差只依赖两个端点,完全看不到中间的数据是均匀分布的还是高度集中的。两组数据极差相同,内部结构可能截然不同;极差小只能说「跨度不大」,不等于数据稳定聚集在中心附近。
这一局限性在与几何测量的联系里尤其清楚:若多次测量同一长度,极差大提示可能存在操作误差或仪器问题,是值得检查的信号;但极差小并不保证测量精准——若每次都偏高了相同的量(系统误差),极差可以是零,但结果仍然是错的。课堂题常用极差来描述分散度,正式的统计分析则会进一步引入方差与标准差,那是后续课程的内容。

在只知道极差的情况下,对两组数据做比较时,应当同时报告中心指标(平均数或中位数),才能给出相对完整的图像。下面这个小对比把这种「同样的中位数,完全不同的平均数与极差」的情形具体展示出来:甲组数据 ,中位数 ,平均数 ,极差 ;乙组数据 ,中位数同样是 ,但平均数约 ,极差 。仅凭中位数,两组看起来「一样」;加上平均数与极差,差异立刻显现。这说明只报一个指标,无论是哪一个,往往都不够诚实。
统计图是数据的视觉语言,不同类型的图适合回答不同的问题,混用会产生误导。
条形图用柱高(或柱长)比较不相交类别的频数或频率,例如各小组人数、各城市降水量等。条形图的力量在于类别之间的直接比较,读图者的眼睛天然地去比较柱的高低;正因如此,纵轴起点的选择至关重要——若纵轴不从 开始,柱与柱之间的高度差会被眼睛放大,两个差距不大的值看起来像是相差悬殊,这是新闻图表中最常见的视觉操纵手段之一。
折线图适合有时间顺序或其他自然顺序的变量,视觉上的连线传递了「趋势」信息。当类别之间没有自然顺序时(例如把各血型频数用折线图画出来),连线就没有意义,甚至会被误读成「从血型 A 到血型 B 存在某种变化趋势」——这是一个语义上的错误,不是数据本身的问题。
扇形图(饼图)展示各部分占整体的比例,是频率的几何可视化。圆心角与频率的换算关系是:若某类频率为 ,则对应圆心角为 。例如,占比 的类别对应 的扇形;各扇形圆心角之和必须等于 ,这是另一个自检工具。扇形图的局限是不适合直接比较两组独立总体(例如两个不同班级各科人数)——两个饼的面积都是 ,比较扇形角度时容易忽略总量的差异。

无论面对哪种图,培养一个固定习惯会避免大多数读图错误:先看标题与单位(图在说谁的什么?单位是人还是元?),再检查坐标轴是否从零开始(尤其是条形图),最后问自己结论是否超出了数据支持的范围。统计图可以揭示相关性,但不能直接证明因果;图里的「趋势」在用语言表述时,必须谨慎区分「A 与 B 之间存在某种关联」和「A 导致了 B」。
条形图纵轴若从非零值开始,柱高差会被视觉放大,有时能让实际差距很小的数据看起来「相差一倍」。在作业与考试中,如果题目给出这样的图,应当主动指出纵轴起点并重新解读柱高的实际差距;在自己画图时,纵轴应从 开始,除非另有明确的合理说明。
扇形图与频率之间的换算是双向的:已知频率可以画出扇形,已知扇形角度也可以反推频率与人数。这在综合题里经常出现。
例 4 某班共 48 人,课外阅读时间的扇形图中,「每天不低于 1 小时」对应的圆心角为 。求这部分学生的人数与频率。
先把圆心角换算成频率。圆心角占整个圆的比例为
学完频率之后,自然会产生这样的问题:如果一枚硬币抛了很多很多次,正面向上的频率会稳定在某个数附近,那个数是多少?这个问题把统计与概率连接了起来。
在最简单的等可能有限模型(古典概型)中,样本空间是有限个彼此「同等公平」的结果的集合。若样本空间共有 个等可能结果,事件 包含其中 个结果,则 的概率定义为
这个定义把「可能性」量化为「有利结果数占全部可能结果数的比例」,与频率的结构完全一致——当重复试验的次数非常大时,事件发生的频率往往会稳定地趋近于它的概率,这是频率与概率之间直觉联系的核心,严格的极限论证留待后续课程。
「等可能」这一前提是古典概型能够成立的关键,使用时必须先确认它是否成立,而不是默认所有问题都满足。一枚均匀的骰子、一副洗匀的牌,是教学中常用的等可能模型;而一枚不均匀的硬币,或者一个没有洗匀的牌堆,就不满足等可能条件,古典公式就不能直接用。
例 5 向上掷一枚均匀的六面骰子,求向上一面为偶数的概率。
样本空间为 ,共 个等可能结果。骰子均匀,每个面出现的概率相同,等可能条件满足。
加权平均数在现实中极为常见——成绩加权、价格指数、人口统计……凡是「不同部分的重要程度不同」的场合都会出现。这里再做一道稍复杂的例题,把加权平均数的计算过程与「误用简单算术平均」的后果放在一起对照。
例 6 某门课程总评由三部分构成:平时练习占 ,期中考占 ,期末考占 。某生三部分得分依次为 、、(均满分 100 分),求该生总评分。
将百分比权重转换为小数:、、,确认三项权重之和为 ,无误。
算术平均数、中位数与众数是回答「典型水平是多少」的三种不同方式,它们对数据分布形状和极端值的敏感程度不同,应当根据数据特点选用,而不是默认套平均数。 极差给出最宽的跨度,但它看不见中间的结构,用「极差小就稳定」来描述分散度是一种过度解读。 统计图的价值在于把数字转化为视觉,但读图必须先核对标题、单位与纵轴起点,结论不能超出图所承载的数据范围。
自检的方法很简单:求中位数前默念「有没有先排序,个数是奇是偶」;读条形图前扫一眼「纵轴从几开始,单位是什么」;写完结论之前问一句「这句话在数据里有没有支撑,有没有在不知不觉中说了因果而不是相关」。把这几个动作养成习惯,统计行为就很难出现低级错误。
练习 1 数据 的众数、中位数和算术平均数分别是多少?
数据已排好序,共 5 个(奇数),中位数是第 3 个数据,即 。 出现 2 次,其余各出现 1 次,众数为 。算术平均数为 。三个指标:众数 ,中位数 ,算术平均数 ,均不相等,体现了分布轻度右偏(右侧有 和 两个较大值把均值拉高)。
练习 2 数据 的中位数是多少?
数据已排好序,共 4 个(偶数),中位数取第 2 个与第 3 个数据的算术平均:。注意: 并不在原数据中出现,这是完全正常的——中位数不必是数据集中的某个值。
练习 3 若某频数表四类的频数分别为 ,是否有众数?
四类频数完全相同,没有哪一类出现次数多于其他类。依照众数的定义,这组数据无众数(或可以说四类并列,具体表述可参考所用教材的约定,关键是不要强行指定其中一类为「众数」)。
练习 4 极差是否可能为 ?如果可能,给出一个例子;如果不可能,说明原因。
极差可以为 。当一组数据中所有值完全相等时,,故 。例如数据 ,极差为 。这意味着数据毫无波动,所有观测值落在同一点上。
练习 5 某加权平均问题:甲投了 3 次篮,得分为 ;乙投了 5 次,得分为 。分别求两人的平均得分,并说明哪种比较更公平——比总得分还是比平均得分?
甲总得分 ,平均 分/次。乙总得分 ,平均 分/次。直接比总得分( vs )时,乙多了一倍,但乙投篮次数也多了近一倍,用总得分比较实际上混入了「投篮次数」这个变量,并不公平。比平均得分( vs )把次数的差异消除,才是真正比较「每次投篮的效率」。这正是加权(或均摊)思想在体育统计中的体现。
中位数 需要确认数据已从小到大排序(题目给出的顺序恰好是排好的)。个数 为偶数,中位数是第 个与第 个数据的算术平均,即 与 的平均值:
众数 是出现次数最多的数值。检查每个值的出现次数: 出现 次, 出现 次,、、 各出现 次。因此众数为 。
极差 是最大值与最小值之差:(分)。这说明这六个成绩的「跨度」是 分。
数据已按升序排列, 为奇数,中位数为第 个数据:
比较两个结果。平均数 千元被第五户的 千元大幅拉高,已经高于前四户所有人的实际收入;中位数 千元处于数据的正中位置,描述的是「排在中间那户家庭」的水平。如果问题是「多数家庭的典型水平是多少」, 千元显然更贴近实际——这正是现实中报告「居民收入」时,专业机构往往会同时给出平均数与中位数两个指标的原因。
总人数 。「选数学」的频率为
验算:四类频率之和应为 ,正确。
再把频率换算成人数:
验算:,与第一步的频率一致,计算无误。「每天不低于 1 小时」的频率约为 ,对应 16 名同学。
事件 ,包含 个有利结果。由古典概型公式,
按照加权平均数公式计算:
对比误用简单算术平均的结果:。两个结果相近但不同——这里差距不大,是因为三项分数差距不悬殊;若期末成绩很低(比如 50 分),两种算法的差距会明显拉大,而只有加权平均数才反映了「期末比平时更重要」这一事实。