11 / 11

数据与统计入门

上一部分的《几何基础与测量》把「量」写进了公式：周长、面积、体积与角度，都依赖单位的统一；同一长度量多次，还会提到取平均来压低误差。那里的「取平均」其实就是统计最基本的运算——把若干个观测值加起来再除以个数——只不过几何课里的语境是同一个量的重复测量，而统计要面对的是更一般的情形：一堆来自不同个体的数，如何用一个数、一张表、一幅图，把「典型水平」与「分散程度」说清楚。

这部分我们的核心目标不是堆砌公式，而是让三件事真正可检查：能够算出并解释中心指标（算术平均数、中位数、众数），能够算出极差并理解它的局限，以及能够从频数表与条形图里读出频率、做出不夸大的结论。

统计在问什么

在动手计算之前，值得先想清楚一个统计问题的基本结构，否则容易「看见数据就套平均数」，最后算出一个在语境里毫无意义的数字。

每个统计问题都有一个研究对象：是一批学生、一段时间里的气温记录、还是某条生产线上的零件？弄清对象，是为了在回答问题时知道结论适用于谁。研究对象确定之后，要问记录的变量是什么：变量可以是数值型的（身高、用时、分数），也可以是类别型的（血型、选择的科目、颜色偏好）；不同类型的变量在后续图表与指标的选择上差别很大。再往下，要明确目的：是想知道这批数据的「典型水平」，还是想知道它们「散得有多开」，抑或是想看各类别各占多大比例？三个目的对应三种不同工具，混用会产生误解。最后还要检查数据的完整性与可靠性：有没有明显的录入错误（例如把一位同学的身高记成 3.2 m），有没有大量缺失？这些判断在实际研究中很重要，课堂题通常默认数据干净，但养成「先过一眼」的习惯，对后续学习有长远好处。

频数、频率与数据的初步整理

拿到一组数值数据，最先做的事往往是排序：把数值从小到大排好。排序看起来是繁琐的准备工作，但它是求中位数、识别极端值、以及确认数据是否有录入错误的前提。跳过排序直接计算，往往会在中位数的位置上出错，或者把最大值误认成一个普通的数。

当数据量较大时，逐个列出不如分组并统计频数来得直观。把所有可能的取值或区间列成一张表，数出每一类出现了多少次，就得到频数，记作 $f_i$ 。如果总数据个数为 $N$ ，那么第 $i$ 类的频率（也叫相对频率）就是

\text{频率}_i = \frac{f_i}{N},

结果是一个介于 $0$ 与 $1$ 之间的小数，常常写成百分数。频率之和一定等于 $1$ （或 $100\%$ ），这是一个天然的自检工具：如果算完各组频率加起来不是 $1$ ，说明某处出了错。

频数和频率的区别值得在这里专门说一句，因为考试里频繁出现混用：频数是「个数」，频率是「比例」。条形图的纵轴如果没有标明单位，一定要先弄清楚画的是频数还是频率，否则读图时对「大」「小」的判断会出错。

算术平均数

算术平均数是最直觉性的「典型水平」：如果把所有数据的总量公平地分摊到每一个个体上，每个个体该分到多少？对 $n$ 个数据 $x_1, x_2, \ldots, x_n$ ，定义为

\bar{x} = \frac{x_1 + x_2 + \cdots + x_n}{n} = \frac{1}{n}\sum_{i=1}^{n} x_i.

这个「公平分摊」的直觉很有用：假设一个班级一共考了 4750 分，共 6 人，那么平均分 $\bar{x} = 475/6 \approx 79.2$ 告诉你，如果每人分数一样多，应该是这个数。这样一来，平均数为什么会被极端值拉动也就显而易见了——极端值参与了「总量」的计算，而「总量」被均摊时，极端值的影响就稀释进了每一个个体。

当数据已经分好组，第 $i$ 组的代表值为 $x_i$ 、频数为 $f_i$ ，且 $\sum_i f_i = N$ ，那么直接对每条数据求和再除以等价于：

\bar{x}_w = \frac{\sum_i f_i x_i}{N}.

这里的权数 $f_i / N$ 正是第 $i$ 组的频率。加权平均数与简单算术平均数的区别在于：如果各组代表的「个体数量」不同，简单地把代表值加起来除以组数，就等于默认每组权重相同，这几乎总是错的。

$六个成绩数据的数轴分布图，标出各点位置，并标注算术平均数 \bar{x} \approx 79.2 在数轴上的位置，直观显示平均数如何被最低分62和最高分95的「张力」定位$

算术平均数容易被误读为「大多数人的水平」，但这两件事完全不同。平均数是全体数据按个数均摊的结果，与「频数最高的分数段」在位置上可能相差很远。想知道「多数人的水平」，需要看的是频数分布，而不仅仅是一个平均数。

下面通过一道例题把平均数、中位数与众数放在一起对比，让三个概念的差异在同一组数据里同时浮现。

例 1 某次小测成绩（分）为 $62,\ 75,\ 75,\ 80,\ 88,\ 95$ ，试求算术平均数、中位数与众数，并计算极差。

算术平均数 直接对所有数据求和再除以个数。六个数据的总和为 $62 + 75 + 75 + 80 + 88 + 95 = 475$ ，因此

\overset{}{}

从这道例题可以看到，三个指标报告的是同一组数据的不同侧面：平均数约 $79.2$ ，中位数 $77.5$ ，众数 $75$ ——三者并不相等。在写解题过程时，切记要说明自己选的是哪个指标，以及为什么它适合回答当前问题，而不是把三个数都算出来然后沉默地收尾。

中位数：排序是前提，奇偶要区分

设排序后的数据依次记为 $x_{(1)} \le x_{(2)} \le \cdots \le x_{(n)}$ 。当为奇数时，正中间只有一个位置，即第个数据，中位数便是。当为偶数时，正中间有两个相邻位置，分别是第个与第个，中位数取这两个数的算术平均。

这个定义看似简单，却是考试里丢分最多的地方之一，原因几乎总是忘记先排序。数据给出的顺序（比如时间顺序、编号顺序）与数值大小顺序通常不同，直接取「中间那行」会得到一个毫无意义的数。另一个常见错误是偶数个数据时只取其中一个（往往是第 $n/2$ 个），漏掉了取平均的步骤。

中位数的另一个重要性质是对极端值的稳健性。下面这道例题把这一点放在一个足够极端的情境里展示，让对比足够清晰。

例 2 某社区 5 户月收入（千元）为 $8,\ 9,\ 10,\ 11,\ 60$ ，试用平均数与中位数分别描述「典型收入水平」。

计算算术平均数。五个数据之和为 $8 + 9 + 10 + 11 + 60 = 98$ ，故

\bar{x} = \frac{98}{5} = 19.6 \text{（千元）}.

众数：「最常见」而不是「最大」

众数的定义是出现次数最多的取值，而不是数值最大的那个，这一点初学者容易混淆。对数值型数据，要数每个数值出现了多少次；对类别型数据，要数每个类别出现了多少次。

众数有三种典型情形需要分别处理。最常见的情形是恰好有一个众数；其次是多个众数：若两个及以上取值并列频数最高，它们都是众数（两个时称双众数，三个以上类似）；还有一种情形是无众数：若每个取值都只出现一次，则不存在众数，这时强行说「众数是某某值」是错误的。

众数的适用语境也值得说清楚。当数据是类别型时，平均数和中位数根本无从计算（你没法对「红色」和「蓝色」取平均），众数是唯一合理的「典型」指标。当数据是数值型但分布高度不均匀、有几个特别集中的聚集点时，众数能直接指出「哪个值最受青睐」。相比之下，若分布比较均匀、没有明显集中的峰值，众数就没什么信息量。

例 3 某班 40 人选课外小组，选择数学的 9 人，编程的 12 人，美术的 7 人，体育的 12 人。判断众数，并求「选数学」的频率。

变量是「选择的小组」，为类别型数据，各类别的频数已知：数学 $9$ ，编程 $12$ ，美术 $7$ ，体育 $12$ 。编程与体育并列最高，均为 $12$ 人，故存在两个众数：编程组与体育组。

极差：只看两端的「跨度」

对数值数据，极差定义为最大值与最小值之差：

R = x_{\max} - x_{\min}.

极差的优点是计算极为简单，一眼就能看出数据的「覆盖范围」有多宽。但它的局限也同样明显：极差只依赖两个端点，完全看不到中间的数据是均匀分布的还是高度集中的。两组数据极差相同，内部结构可能截然不同；极差小只能说「跨度不大」，不等于数据稳定聚集在中心附近。

这一局限性在与几何测量的联系里尤其清楚：若多次测量同一长度，极差大提示可能存在操作误差或仪器问题，是值得检查的信号；但极差小并不保证测量精准——若每次都偏高了相同的量（系统误差），极差可以是零，但结果仍然是错的。课堂题常用极差来描述分散度，正式的统计分析则会进一步引入方差与标准差，那是后续课程的内容。

两组数据的数轴示意图：甲组数据 10, 11, 12 均匀聚集，极差为 2；乙组数据 10, 11, 40 有一个极端值，极差为 30。对比两组中位数均为 11 但极差和平均数差异巨大，直观展示极差对极端值的敏感性

在只知道极差的情况下，对两组数据做比较时，应当同时报告中心指标（平均数或中位数），才能给出相对完整的图像。下面这个小对比把这种「同样的中位数，完全不同的平均数与极差」的情形具体展示出来：甲组数据 $10,11,12$ ，中位数 $11$ ，平均数 $11$ ，极差 $2$ ；乙组数据 $10,11,40$ ，中位数同样是 $11$ ，但平均数约，极差。仅凭中位数，两组看起来「一样」；加上平均数与极差，差异立刻显现。这说明只报一个指标，无论是哪一个，往往都不够诚实。

统计图：读图时须核对的三件事

统计图是数据的视觉语言，不同类型的图适合回答不同的问题，混用会产生误导。

条形图用柱高（或柱长）比较不相交类别的频数或频率，例如各小组人数、各城市降水量等。条形图的力量在于类别之间的直接比较，读图者的眼睛天然地去比较柱的高低；正因如此，纵轴起点的选择至关重要——若纵轴不从 $0$ 开始，柱与柱之间的高度差会被眼睛放大，两个差距不大的值看起来像是相差悬殊，这是新闻图表中最常见的视觉操纵手段之一。

折线图适合有时间顺序或其他自然顺序的变量，视觉上的连线传递了「趋势」信息。当类别之间没有自然顺序时（例如把各血型频数用折线图画出来），连线就没有意义，甚至会被误读成「从血型 A 到血型 B 存在某种变化趋势」——这是一个语义上的错误，不是数据本身的问题。

扇形图（饼图）展示各部分占整体的比例，是频率的几何可视化。圆心角与频率的换算关系是：若某类频率为 $p$ ，则对应圆心角为 $360^\circ \times p$ 。例如，占比 $25\%$ 的类别对应 $90^\circ$ 的扇形；各扇形圆心角之和必须等于 $360^\circ$ ，这是另一个自检工具。扇形图的局限是不适合直接比较两组独立总体（例如两个不同班级各科人数）——两个饼的面积都是，比较扇形角度时容易忽略总量的差异。

一张标准条形图示意图（纵轴从 0 开始）与一张纵轴从 6 开始的同一数据条形图对比，直观展示纵轴截断如何夸大视觉差异

无论面对哪种图，培养一个固定习惯会避免大多数读图错误：先看标题与单位（图在说谁的什么？单位是人还是元？），再检查坐标轴是否从零开始（尤其是条形图），最后问自己结论是否超出了数据支持的范围。统计图可以揭示相关性，但不能直接证明因果；图里的「趋势」在用语言表述时，必须谨慎区分「A 与 B 之间存在某种关联」和「A 导致了 B」。

条形图纵轴若从非零值开始，柱高差会被视觉放大，有时能让实际差距很小的数据看起来「相差一倍」。在作业与考试中，如果题目给出这样的图，应当主动指出纵轴起点并重新解读柱高的实际差距；在自己画图时，纵轴应从 $0$ 开始，除非另有明确的合理说明。

从扇形图反推数据

扇形图与频率之间的换算是双向的：已知频率可以画出扇形，已知扇形角度也可以反推频率与人数。这在综合题里经常出现。

例 4 某班共 48 人，课外阅读时间的扇形图中，「每天不低于 1 小时」对应的圆心角为 $120^\circ$ 。求这部分学生的人数与频率。

先把圆心角换算成频率。圆心角占整个圆的比例为

p = \frac{120^\circ}{360^\circ} = \frac{1}{3}.

概率入门

学完频率之后，自然会产生这样的问题：如果一枚硬币抛了很多很多次，正面向上的频率会稳定在某个数附近，那个数是多少？这个问题把统计与概率连接了起来。

在最简单的等可能有限模型（古典概型）中，样本空间是有限个彼此「同等公平」的结果的集合。若样本空间共有 $n$ 个等可能结果，事件 $A$ 包含其中 $k$ 个结果，则 $A$ 的概率定义为

P(A) = \frac{k}{n}, \quad 0 \le P(A) \le 1.

这个定义把「可能性」量化为「有利结果数占全部可能结果数的比例」，与频率的结构完全一致——当重复试验的次数非常大时，事件发生的频率往往会稳定地趋近于它的概率，这是频率与概率之间直觉联系的核心，严格的极限论证留待后续课程。

「等可能」这一前提是古典概型能够成立的关键，使用时必须先确认它是否成立，而不是默认所有问题都满足。一枚均匀的骰子、一副洗匀的牌，是教学中常用的等可能模型；而一枚不均匀的硬币，或者一个没有洗匀的牌堆，就不满足等可能条件，古典公式就不能直接用。

例 5 向上掷一枚均匀的六面骰子，求向上一面为偶数的概率。

样本空间为 $\{1,2,3,4,5,6\}$ ，共 $n=6$ 个等可能结果。骰子均匀，每个面出现的概率相同，等可能条件满足。

加权平均数的综合应用

加权平均数在现实中极为常见——成绩加权、价格指数、人口统计……凡是「不同部分的重要程度不同」的场合都会出现。这里再做一道稍复杂的例题，把加权平均数的计算过程与「误用简单算术平均」的后果放在一起对照。

例 6 某门课程总评由三部分构成：平时练习占 $40\%$ ，期中考占 $30\%$ ，期末考占 $30\%$ 。某生三部分得分依次为 $86$ 、 $90$ 、 $78$ （均满分 100 分），求该生总评分。

将百分比权重转换为小数： $0.4$ 、 $0.3$ 、 $0.3$ ，确认三项权重之和为 $0.4+0.3+0.3=1$ ，无误。

小结

算术平均数、中位数与众数是回答「典型水平是多少」的三种不同方式，它们对数据分布形状和极端值的敏感程度不同，应当根据数据特点选用，而不是默认套平均数。极差给出最宽的跨度，但它看不见中间的结构，用「极差小就稳定」来描述分散度是一种过度解读。统计图的价值在于把数字转化为视觉，但读图必须先核对标题、单位与纵轴起点，结论不能超出图所承载的数据范围。

自检的方法很简单：求中位数前默念「有没有先排序，个数是奇是偶」；读条形图前扫一眼「纵轴从几开始，单位是什么」；写完结论之前问一句「这句话在数据里有没有支撑，有没有在不知不觉中说了因果而不是相关」。把这几个动作养成习惯，统计行为就很难出现低级错误。

自测练习

练习 1 数据 $3, 3, 5, 7, 9$ 的众数、中位数和算术平均数分别是多少？

数据已排好序，共 5 个（奇数），中位数是第 3 个数据，即 $5$ 。 $3$ 出现 2 次，其余各出现 1 次，众数为 $3$ 。算术平均数为 $\dfrac{3+3+5+7+9}{5} = \dfrac{27}{5} = 5.4$ 。三个指标：众数，中位数，算术平均数，均不相等，体现了分布轻度右偏（右侧有和两个较大值把均值拉高）。

练习 2 数据 $10, 20, 30, 40$ 的中位数是多少？

数据已排好序，共 4 个（偶数），中位数取第 2 个与第 3 个数据的算术平均： $\dfrac{20+30}{2} = 25$ 。注意： $25$ 并不在原数据中出现，这是完全正常的——中位数不必是数据集中的某个值。

练习 3 若某频数表四类的频数分别为 $5, 5, 5, 5$ ，是否有众数？

四类频数完全相同，没有哪一类出现次数多于其他类。依照众数的定义，这组数据无众数（或可以说四类并列，具体表述可参考所用教材的约定，关键是不要强行指定其中一类为「众数」）。

练习 4 极差是否可能为 $0$ ？如果可能，给出一个例子；如果不可能，说明原因。

极差可以为 $0$ 。当一组数据中所有值完全相等时， $x_{\max} = x_{\min}$ ，故 $R = x_{\max} - x_{\min} = 0$ 。例如数据，极差为。这意味着数据毫无波动，所有观测值落在同一点上。

练习 5 某加权平均问题：甲投了 3 次篮，得分为 $2, 3, 0$ ；乙投了 5 次，得分为 $2, 2, 1, 2, 3$ 。分别求两人的平均得分，并说明哪种比较更公平——比总得分还是比平均得分？

甲总得分 $2+3+0=5$ ，平均 $\dfrac{5}{3}\approx 1.67$ 分/次。乙总得分 $2+2+1+2+3=10$ ，平均分/次。直接比总得分（ vs ）时，乙多了一倍，但乙投篮次数也多了近一倍，用总得分比较实际上混入了「投篮次数」这个变量，并不公平。比平均得分（ vs ）把次数的差异消除，才是真正比较「每次投篮的效率」。这正是加权（或均摊）思想在体育统计中的体现。

x

ˉ

=

\frac{475}{6}

\approx

79.17

（分）

.

\bar{x} = \frac{475}{6} \approx 79.17 \text{（分）}.

数学基础与数的概念第11章 | 自在学