平均数不总是平均：中心与离散

一家公司公布“本组 6 人平均年收入 16.7 万元”。听起来每个人都过得差不多。可是如果原始数据是：

年收入（万元）	7	8	8	9	10	58

你会马上觉得这句话有点滑。大多数人的收入在 7 到 10 万元之间，只有一个人是 58 万元。平均数是真的，但它给人的感觉不一定真。

这一节要做的事，就是学会问两个问题：一组数据的“中心”在哪里？数据离这个中心有多远？第一个问题对应平均数、中位数、众数；第二个问题对应极差、四分位数和标准差。

一个极高收入点把平均数拉向右侧，中位数仍留在普通收入群附近

描述一组数据时，不要急着只报一个数。先问它代表哪种中心，再问数据是不是很分散。中心和离散放在一起，才像一张比较完整的数据照片。

三种中心：平均数、中位数、众数

“中心”不是一个固定答案，而是几种不同的看法。平均数把所有数据加起来后均分；中位数把数据排成一列，找正中间的位置；众数找出现次数最多的值。

平均数：把总量重新分摊

平均数的公式是：

\bar{x}=\frac{x_1+x_2+\cdots+x_n}{n}

刚才那组收入数据的总和是 $100$ 万元，共有 $6$ 个人，所以平均数是：

\bar{x}=\frac{7+8+8+9+10+58}{6}\approx 16.7

平均数适合回答“如果把总量平均分，每个单位分到多少”。比如一个班 5 次小测的平均分、一个月每天平均用电量、每名顾客平均消费金额，都可以用它。

中位数：排队后看中间

中位数先要求数据有顺序。把收入排好后是：

7,\ 8,\ 8,\ 9,\ 10,\ 58

这里有 $6$ 个数，中间有两个位置，所以中位数取第 $3$ 个和第 $4$ 个的平均：

\frac{8+9}{2}=8.5

中位数说的是：至少有一半人不高于它，也至少有一半人不低于它。它不在意最右边那个 $58$ 离大家有多远，所以比平均数更抗极端值。

众数：哪一个最常出现

在这组收入里， $8$ 出现了两次，其他数只出现一次，所以众数是 $8$ 。众数在“最常见”比“数值大小”更重要时很有用。比如最常买的鞋码、最常见的故障类型、某家店最常卖出的杯型，众数比平均数更自然。

平均数、中位数、众数分别对应平衡点、中间位置和最高频位置

平均数、中位数、众数都可以叫中心，但它们回答的问题不同。看到“平均”两个字时，要追问它是不是 arithmetic mean；看到“典型”两个字时，也要追问它到底是中位数、众数，还是只是一个模糊说法。

极端值会把平均数拉走

极端值不是一定错误的数据。高收入者、豪宅成交、一次异常高的考试分数，都可能是真实发生的。问题在于：它们会让平均数移动得很明显。

下面的交互可以拖动最右侧收入点，观察平均数线和中位数线的变化。

例题：收入数据该报哪个中心

某创业团队 7 名成员的月收入（千元）是：

成员	A	B	C	D	E	F	G
月收入	5	6	6	7	8	8	50

请分别求平均数、中位数和众数，并判断哪个数更适合描述“普通成员”的收入。

先求平均数。所有收入相加得到 $90$ 千元，共 $7$ 人，所以平均数是 $90\div7\approx12.9$ 千元。

再求中位数。数据已经从小到大排列，共有 $7$ 个数，正中间是第 $4$ 个数，所以中位数是 $7$ 千元。

接着求众数。 $6$ 和 $8$ 都出现了两次，其他数只出现一次，所以这组数据有两个众数： $6$ 千元和 $8$ 千元。

最后回到问题。题目问“普通成员”的收入，而 $50$ 千元明显远离其他人。平均数被它拉高到 $12.9$ 千元，不像多数成员的收入；中位数 $7$ 千元更稳，更适合这个问题。

抗极端值不是说忽略极端值，而是说某个统计量不会被少数极端值轻易拉走。中位数和四分位数通常比平均数、极差更抗极端值。

房价和工资为什么常看中位数

房价、收入、财富这类数据经常右偏：多数数值挤在较低或中等范围，少数特别大的数把右边拖得很长。此时平均数常常高于中位数。

看一条街上 6 套房的成交价（万元）：

房屋	1	2	3	4	5	6
成交价	45	47	47.5	51	53.5	125

平均房价是：

\frac{45+47+47.5+51+53.5+125}{6}=61.5

中位数是第 $3$ 个和第 $4$ 个的平均：

\frac{47.5+51}{2}=49.25

如果你想了解“这条街上典型成交价大概在哪里”， $49.25$ 万元比 $61.5$ 万元更接近多数房屋。如果你想算“6 套房总成交额平均分到每套是多少”，平均数才是直接答案。

房价分布右偏，多数普通住宅靠近中位数，一栋豪宅把平均数抬高

选中心时先看问题

同一组数据可以同时有多个中心。选择哪一个，不取决于哪个名字更熟，而取决于你要回答什么问题。

问题	更常用的中心	原因
班级总分平均分到每个学生是多少	平均数	它保留总量信息
普通住户收入大概处在什么位置	中位数	它不容易被极高收入拉偏
最常见的鞋码或投票选项是什么	众数	它描述最高频类别
房价广告想显示“典型成交价”	中位数	房价常有右偏和豪宅极端值

常见误区是把“平均数”理解成“多数人都接近这个数”。如果数据很偏，平均数可能落在一个并不常见的位置。它仍然是正确计算结果，但不一定是最适合的代表。

离散程度：中心之外还要看距离

只知道中心还不够。下面两组考试成绩都有同样的平均数 $82$ 分：

组别	成绩
A 组	78，80，82，84，86
B 组	68，75，82，89，96

A 组成绩围在 $82$ 附近，B 组从 $68$ 到 $96$ 拉得更开。它们的中心一样，但学习状态给人的感觉不同。

两组考试成绩中心接近，但一组集中、一组分散

极差：最快看到跨度

极差只看最大值和最小值：

\text{极差}=\max-\min

A 组极差是 $86-78=8$ ，B 组极差是 $96-68=28$ 。极差很直观，但它只受两端影响。只要最大值或最小值很极端，极差就会变得很大，中间数据发生了什么却看不出来。

四分位数：把数据切成四段

四分位数先把数据从小到大排好，再找几个切点：

记号	含义
$Q_1$	第一四分位数，约有 25% 的数据不高于它
$Q_2$	第二四分位数，也就是中位数
$Q_3$	第三四分位数，约有 75% 的数据不高于它

四分位距是中间一半数据的跨度：

IQR=Q_3-Q_1

它比极差稳，因为它看的是中间一半，而不是只盯着最小值和最大值。

箱线图展示最小值、第一四分位数、中位数、第三四分位数和最大值

下面的交互会把数据排序、四分位数和箱线图放在一起。切换不同情境时，注意箱体变宽还是变窄，离群点有没有出现。

例题：用四分位数找异常等待时间

某窗口 11 位顾客的等待时间（分钟）排好后是：

12,\ 15,\ 18,\ 20,\ 21,\ 22,\ 24,\ 26,\ 29,\ 45,\ 60

求中位数、 $Q_1$ 、 $Q_3$ 、 $IQR$ ，并用 $1.5\times IQR$ 的规则判断是否有高端异常值。

先找中位数。共有 $11$ 个数，正中间是第 $6$ 个，所以 $Q_2=22$ 。

去掉中位数后，看左半边 $12,15,18,20,21$ 。这 5 个数的中间是 $18$ ，所以 $Q_1=18$ 。

再看右半边 $24,26,29,45,60$ 。这 5 个数的中间是 $29$ ，所以 $Q_3=29$ 。

计算四分位距： $IQR=29-18=11$ 。高端异常值边界是 $Q_3+1.5\times IQR=29+16.5=45.5$ 。

最后比较数据。 $60$ 大于 $45.5$ ，按这个规则可视为高端异常值； $45$ 没有超过边界，所以不算。

标准差：离平均数的典型距离

标准差关心每个数据点离平均数有多远。它的想法不是只看最远的两端，而是把所有偏离都纳入计算。

对于样本数据，常用样本标准差：

s=\sqrt{\frac{(x_1-\bar{x})^2+(x_2-\bar{x})^2+\cdots+(x_n-\bar{x})^2}{n-1}}

公式看起来长，但直觉很朴素：先找平均数，再看每个数离平均数多远，把这些距离综合成一个典型距离。

多个数据点到平均数中心线的距离，窄分布和宽分布对应不同标准差

观察标准差时，可以先不急着算。把数据点想成围着平均数站成一排：点越贴近中心线，标准差越小；点越向两边散开，标准差越大。公式只是把这种距离感写成可计算的数。

例题：同样平均分，不同标准差

继续看这两组成绩：

组别	成绩	平均数
A 组	78，80，82，84，86	82
B 组	68，75，82，89，96	82

用样本标准差比较它们的分散程度。

A 组相对平均数 $82$ 的偏差是 $-4,-2,0,2,4$ ，平方后是 $16,4,0,4,16$ ，平方和是 $40$ 。

A 组样本标准差是 $\sqrt{40\div4}=\sqrt{10}\approx3.2$ 。这说明 A 组成绩通常离平均数只有几分。

B 组相对平均数 $82$ 的偏差是 $-14,-7,0,7,14$ ，平方后是 $196,49,0,49,196$ ，平方和是 $490$ 。

B 组样本标准差是 $\sqrt{490\div4}=\sqrt{122.5}\approx11.1$ 。所以 B 组虽然平均数也是 $82$ ，但成绩差异明显更大。

标准差的单位和原数据相同。成绩的标准差是“分”，房价的标准差是“万元”，等待时间的标准差是“分钟”。不要把标准差理解成百分比，也不要以为平均数越大，标准差就一定越大。

误区辨析：别让一个数替你下结论

误区一：平均数等于普通水平

如果数据大致对称、没有明显极端值，平均数常常很好用。可是在收入、房价、财富这类右偏数据里，平均数可能高于多数人的实际位置。此时“普通水平”常要看中位数。

误区二：中位数总是比平均数好

中位数更抗极端值，但它也会丢掉总量信息。如果题目问一个班总分平均分摊到每个人，或者公司人均销售额，平均数正是需要的量。

误区三：有异常值就直接删掉

异常值可能来自录入错误，也可能是真实现象。处理前先问：它是不是测量错误？是不是来自同一个总体？它会不会正是我们关心的风险信号？统计不是把不顺眼的数据擦掉，而是解释它为什么在那里。

误区四：极差大就说明所有数据都散

极差只看两端。一个班大多数成绩集中，但有一个学生缺考记为 0，极差会很大。四分位距和标准差能帮助你继续判断：分散是整体性的，还是被少数端点造成的。

读一个统计量时，最好同时说出它的盲点。平均数怕极端值；中位数不看距离；众数可能不存在或不唯一；极差只看两端；标准差对极端值也敏感。

练一练

练习一：收入中心

某小组 8 人年收入（万元）是：

6,\ 7,\ 7,\ 8,\ 8,\ 9,\ 10,\ 65

求平均数、中位数、众数。若要描述“多数成员的大致收入”，你会选哪个？

总和是 $120$ ，共有 $8$ 人，所以平均数是 $120\div8=15$ 万元。

中间两个数是第 $4$ 个和第 $5$ 个，都是 $8$ ，所以中位数是 $8$ 万元。

$7$ 和 $8$ 都出现了两次，所以众数是 $7$ 万元和 $8$ 万元。

如果要描述多数成员的大致收入，中位数 $8$ 万元更合适。平均数被 $65$ 万元拉高，落在一个多数成员并没有接近的位置。

练习二：房价代表值

某社区 7 套房成交价（万元）是：

82,\ 85,\ 86,\ 88,\ 90,\ 94,\ 210

房产报告说“平均成交价约 105 万元”。这句话哪里可能误导读者？请给出一个更稳的代表值。

平均数是：

\frac{82+85+86+88+90+94+210}{7}=105

计算没有错，但 $210$ 万元明显远离其他房价，会把平均数抬高。中位数是第 $4$ 个数 $88$ 万元，它更接近这批房屋的典型成交位置。报告如果只说“平均成交价 105 万元”，读者可能误以为多数房屋都接近这个价位。

练习三：四分位数和异常值

一组配送时长（分钟）排好后是：

18,\ 19,\ 21,\ 23,\ 25,\ 26,\ 27,\ 29,\ 31,\ 34,\ 55

求 $Q_1$ 、中位数、 $Q_3$ 、 $IQR$ ，并用 $1.5\times IQR$ 规则判断 $55$ 是否为高端异常值。

共有 $11$ 个数，中位数是第 $6$ 个数 $26$ 。

左半边是 $18,19,21,23,25$ ，所以 $Q_1=21$ 。右半边是 $27,29,31,34,55$ ，所以 $Q_3=31$ 。

四分位距是：

IQR=31-21=10

高端异常值边界是：

Q_3+1.5\times IQR=31+15=46

$55$ 大于 $46$ ，所以按这个规则可视为高端异常值。

练习四：同中心不同离散

两组机器每天加工零件数如下：

机器	数据
甲	96，98，100，102，104
乙	80，90，100，110，120

它们的平均数相同吗？哪一组更稳定？你可以用极差或标准差的直觉说明。

甲组平均数是 $100$ ，乙组平均数也是 $100$ 。

甲组极差是 $104-96=8$ ，乙组极差是 $120-80=40$ 。两组中心相同，但乙组离平均数更远，波动更大。若用标准差计算，也会得到乙组标准差更大的结论，所以甲组更稳定。

收束：中心要配上离散一起读

这一节的关键词不是“背公式”，而是“别让一个数替你看完整组数据”。平均数适合总量分摊，中位数适合偏态和极端值明显的场景，众数适合最常见类别。极差给你快速跨度，四分位数抓住中间一半，标准差描述数据离平均数的典型距离。

下次看到“平均工资”“平均房价”“平均分”时，可以多问一句：数据有没有偏？有没有极端值？中位数是多少？分散有多大？这几个问题一出来，统计量就不再只是一个漂亮数字，而会变成能被检查的证据。