13 / 14

数据分析与统计基础

代数给我们一套语言，描述变量之间的规律；统计学则给我们一套工具，从真实数据里挖出这些规律。两者的差别在于：代数处理的是精确的符号世界，统计面对的是充满噪声的现实世界。

工具箱里有四类东西：描述"中间水平"的集中趋势，描述"数据有多分散"的离散程度，把抽象数字变成可视形状的统计图表，以及探索两组数据之间关系的散点图与线性回归。这些工具不是枯燥的公式游戏——它们是 NBA 球队选秀、医院对比药物疗效、Netflix 推荐系统背后共同的数学语言。

集中趋势：数据的"重心"在哪里

平均数、中位数与众数

面对一组数据，最自然的问题是："哪个数最能代表这组数据的典型水平？"统计学给出了三个候选者，各有擅长。

平均数（Mean）是最常见的一个。把所有数据相加，再除以个数：

\bar{x} = \frac{x_1 + x_2 + \cdots + x_n}{n} = \frac{1}{n}\sum_{i=1}^{n} x_i

平均数把每个数据都纳入计算，非常"民主"——但这也是它的弱点。对于一组成绩 $72, 85, 91, 68, 88, 76, 94$ ，平均分约为 $82$ ，这是合理的代表。然而如果班里加入一个考了 $10$ 分的同学，平均分立刻从 $82$ 跌到 $73$ ——一个极端值就把整组数据的代表性破坏了。

中位数（Median）是把数据从小到大排列后正中间的那个值。若数据个数为奇数，中位数就是第 $\dfrac{n+1}{2}$ 个；若为偶数，则取中间两个的平均值。中位数对极端值几乎免疫：加入那个 $10$ 分的同学后，七人排序变成 $10, 68, 72, 76, 85, 88, 91, 94$ ，中位数从只变到，稳得多。这就是为什么房价、居民收入这类数据往往报告中位数而非平均数——少数豪宅或亿万富翁不该让人误以为"大家都很有钱"。

众数（Mode）是出现次数最多的值，适合描述分类数据或离散数据的主流倾向。一家奶茶店统计甜度选择，五分糖出现了 $11$ 次、七分糖 $8$ 次、三分糖 $5$ 次，众数就是五分糖——它反映了最受欢迎的选项，对连续型数据则不那么适用。

三者的关系值得记住：当数据分布对称时，平均数、中位数、众数三者接近甚至重合；当数据向右倾斜（有高端异常值）时，平均数 > 中位数 > 众数；向左倾斜时方向相反。选用哪个，取决于数据的分布特点和你想说明的具体问题。

平均数与中位数对比：两条数轴，上方数轴显示大多数点集中在30附近、一个异常值在80，箭头标注"平均数被拉高"和"中位数保持稳定"，下方写出两者数值，说明中位数对异常值的抵抗力，中文标注，手绘教科书风格

离散程度：数据到底有多"散"

集中趋势只描述了数据的"重心"在哪里，却没有告诉我们数据分布有多宽。看这两组数据：组 A 是 $49, 50, 51$ ，组 B 是 $10, 50, 90$ 。两组平均数都是 $50$ ，但组 A 三人成绩几乎相同，组 B 则差距悬殊。集中趋势相同，不代表数据的"形状"相同。

极差与方差

极差（Range）是最粗糙的离散程度指标：最大值减最小值。组 A 极差为 $2$ ，组 B 为 $80$ ，一目了然。但极差只用了两个端点，完全忽略了中间所有数据的分布信息，太过粗糙。

方差（Variance）让每一个数据都参与进来，衡量每个数据点距离均值的平均偏离程度：

s^2 = \frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2

取平方是必要的：偏差有正有负，直接求和会互相抵消。平方后所有项变为正数，能真实反映偏离的大小。以组 B 为例（ $\bar{x} = 50$ ）： $(10-50)^2 + (50-50)^2 + (90-50)^2 = 1600 + 0 + 1600 = 3200$ ，方差为；组 A 的方差则约为，远小于组 B。

标准差

方差有一个单位上的麻烦：若原始数据单位是"分"，方差的单位就是"分²"，解读起来很别扭。对方差开根号，得到标准差（Standard Deviation）：

s = \sqrt{\frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2}

标准差恢复了原始单位，其直观含义是：数据点平均偏离均值约多少。组 B 的标准差约为 $32.7$ 分，组 A 约为 $0.82$ 分。这个含义在生活中随处可见：城市 A 年均气温 $20°C$ 、标准差 $2°C$ ，意味着大多数时候在 $18\sim 22°C$ 之间；城市 B 同样平均 $20°C$ ，但标准差，夏天可热到、冬天冷到 ——同样的均值，体验完全不同。

标准差大小对比：两组数据点分布图，左图点密集聚集在均值附近标注"标准差小"，右图点分散标注"标准差大"，每个点到均值的距离用短线段标出，中文标注，手绘教科书风格

统计图表：让数据开口说话

数字是抽象的，好的图表能在几秒内让人抓住核心信息。三种最常用的统计图表各有侧重。

茎叶图

茎叶图适合展示小数据集的分布，同时完整保留原始数据。以 12 位同学一周运动时间（小时） $3, 5, 6, 7, 8, 8, 9, 10, 11, 12, 14, 15$ 为例，以十位数为"茎"、个位数为"叶"排列，可以一眼看出数据集中在哪个区间、分布是否对称。

直方图

直方图用矩形的面积表示频率或频数，适合展示大数据集的分布。横轴是数值区间（组距），纵轴是频数或频率，矩形之间紧密相连——这区别于条形图（用于分类数据，矩形之间有间隔）。直方图的形状会告诉你数据是否对称、是否有偏斜、峰值在哪里。

箱线图

箱线图用五个关键数字来描述数据：最小值（Min）、第一四分位数 $Q_1$ （第 25 百分位）、中位数 $Q_2$ （第 50 百分位）、第三四分位数 $Q_3$ （第 75 百分位）、最大值（Max）。中间的矩形"箱子"覆盖 $Q_1$ 到的范围，称为 IQR ，代表中间 50% 数据所在的区间。落在以下或以上的点被标记为（outlier）。

箱线图结构：一个完整箱线图，清晰标注 Min、Q₁、Q₂（中位数）、Q₃、Max 五个数字，用花括号标出 IQR=Q₃-Q₁，异常值用独立圆点表示，旁边标注"中间50%数据"，中文标注，手绘教科书风格

箱线图最强大的用途是并列比较多组数据：把两个班的成绩箱线图并列画在同一坐标系上，哪个班成绩更高、哪个班发挥更稳定，一眼就能看出来——这比对着两列数字发呆高效得多。

散点图与相关性：两组数据之间的关系

前面讨论的都是单组数据的分析。现实中更多的问题是：两组数据之间有没有规律性的联系？ 身高与体重有关吗？学习时间越长成绩越好吗？广告投入越多销售额越高吗？回答这类问题，需要散点图（Scatter Plot）。

散点图的画法是：以一组数据为横轴（自变量 $x$ ），另一组为纵轴（因变量 $y$ ），每对数据 $(x, y)$ 对应坐标系上的一个点。把所有点画出来后，观察点云的整体形态：若点云从左下向右上延伸，是正相关（ $x$ 增大时 $y$ 趋向增大）；若从左上向右下延伸，是负相关（ $x$ 增大时 $y$ 趋向减小）；若点云杂乱无规律，则。相关性还有强弱之分：点云越紧密地靠近一条直线，相关性越强。

三种相关性散点图：并排三个坐标系，左图点云从左下向右上分布标注"正相关"，中图点云杂乱标注"无相关"，右图点云从左上向右下分布标注"负相关"，中文标注，手绘教科书风格

统计学家用相关系数 $r$ 来量化线性相关的程度与方向， $r$ 的范围是 $[-1, 1]$ 。 $r$ 接近 $+1$ 是强正相关，接近 $-1$ 是强负相关，接近 $0$ 则几乎没有线性关联。通常视为强相关，为中等相关，为弱相关。

相关不等于因果。 研究发现城市里冰淇淋销量与溺水人数呈正相关，但这绝不意味着"吃冰淇淋导致溺水"——背后的真实原因是夏天天热，既让人买冰淇淋，也让人去游泳。发现相关性只是提示你去追问因果，而不是直接下结论。

线性回归：画出那条最佳直线

散点图告诉我们"有关系"，线性回归（Linear Regression）则告诉我们"关系长什么样"。目标是找一条直线 $\hat{y} = ax + b$ ，使它最好地穿过点云。"最好"的标准是所有数据点到这条直线的竖向距离（残差）的平方和最小，这个方法叫做最小二乘法（Least Squares Method）。

斜率 $a$ 和截距 $b$ 由以下公式给出：

a = \frac{n\sum x_i y_i - \sum x_i \sum y_i}{n\sum x_i^2 - \left(\sum x_i\right)^2} \qquad b = \bar{y} - a\bar{x}

公式看起来复杂，但逻辑清晰：它把所有数据点的贡献都纳入计算，找到使总误差最小的那条线。斜率 $a$ 的含义是" $x$ 每增加 1 个单位， $\hat{y}$ 平均增加 $a$ 个单位"；截距 $b$ 是 $x = 0$ 时的预测值。

得到回归方程之后，可以用它做预测。若预测点在原始数据范围内，叫做插值（interpolation），相对可靠；若在数据范围外，叫做外推（extrapolation），需要谨慎——模型是对已有数据的拟合，不保证在数据范围外依然成立。

线性回归最佳拟合直线：坐标系中散点分布大致线性，一条直线穿过点云，标注"ŷ=ax+b"；从每个数据点向直线画垂直虚线段，标注"残差"；底部写"最小二乘法：残差平方和最小"，中文标注，手绘教科书风格

衡量回归效果的指标是决定系数 $R^2$ （ $= r^2$ ），范围在 $[0, 1]$ 之间。 $R^2 = 0.85$ 意味着的变化能解释变化的，剩余由模型未捕捉到的其他因素决定。越大，回归直线对数据的拟合越好。

例题与解答

例题一：集中趋势的选择

某外卖平台记录了 10 位骑手在同一时段的送餐时间（分钟）：

28,\ 35,\ 22,\ 31,\ 45,\ 29,\ 33,\ 28,\ 27,\ 82

求平均数、中位数和众数，并说明哪个指标最能代表典型送餐时间。

排序： $22, 27, 28, 28, 29, 31, 33, 35, 45, 82$ 。

例题二：标准差与稳定性

两位同学各参加了 5 次数学竞赛，成绩如下：小明 $80, 82, 79, 81, 83$ ；小红 $70, 90, 75, 85, 85$ 。两人平均分均为 $81$ 分，谁更稳定？

计算小明的方差（ $\bar{x} = 81$ ）：

s_{明}^{2} = \frac{(80 - 81)^{2} + (82 - 81)^{2} + (79 - 81)^{2} + (81 - 81)^{2} + (83 - 81)^{2}}{5} = \frac{1 + 1 + 4 + 0 +}{}

例题三：散点图与相关性

某校收集了 8 名同学每天屏幕使用时间（小时）和睡眠时间（小时）的数据：

屏幕时间 $x$	2	3	4	5	5	6	7	8
睡眠时间 $y$	9	8.5	8	7.5	7	6.5	6	5.5

描述相关性类型与强度，并讨论能否得出因果结论。

$x$ 增大时 $y$ 明显减小，散点大体沿向右下倾斜的直线分布，这是负相关。

数据点几乎紧贴一条直线（实际计算 $r \approx -0.998$ ），属于强负相关。

例题四：线性回归与预测

某品牌连续 6 个月的广告费用（万元）与销售额（万元）数据如下，已知最佳拟合直线为 $\hat{y} = 4.4x + 10.3$ ， $r \approx 0.996$ ：

广告费 $x$	1	2	3	4	5	6
销售额 $y$	15	20	25	28	33	37

解释斜率含义，预测广告费 $5.5$ 万元时的销售额，并说明能否预测广告费 $50$ 万元时的情况。

斜率 $a = 4.4$ 表示广告费每增加 $1$ 万元，销售额平均增加 $4.4$ 万元。截距 $b = 10.3$ 表示广告费为 $0$ 时的基础销售额约为万元。

练习

练习一：数据 $5, 8, 12, 8, 15, 8, 20$ 的平均数、中位数和众数各是多少？

排序后： $5, 8, 8, 8, 12, 15, 20$ 。平均数 $= \dfrac{76}{7} \approx 10.86$ ；中位数为第 4 个数；众数（出现 3 次）。数据向右偏斜（最大值 20 拉高了平均数），故中位数和众数（均为 8）更能代表典型水平。

练习二：数据 $10, 20, 30, 40, 50$ 的标准差是多少？

$\bar{x} = 30$ 。方差 $s^2 = \dfrac{(-20)^2+(-10)^2+0^2+10^2+20^2}{5} = \dfrac{400+100+0+100+400}{5} = 200$ 。标准差。

练习三：相关系数 $r = -0.3$ 说明两组数据存在什么类型和强度的相关？

$r = -0.3 < 0$ ，方向为负相关（ $x$ 增大时 $y$ 趋向减小）； $|r| = 0.3 < 0.5$ ，强度为弱负相关，两组数据之间几乎没有显著的线性联系。

练习四：若回归方程 $\hat{y} = 2.5x + 5$ ，原始数据 $x$ 范围为 $1\sim10$ ，用 $x=8$ 预测和用预测分别可靠吗？

$x=8$ 在原始数据范围内，属于插值，预测相对可靠： $\hat{y} = 2.5 \times 8 + 5 = 25$ 。 $x=100$ 远超数据范围，属于大幅外推，模型不保证成立，预测结果不可靠，不应直接使用。

小结

数据分析是一门从乱中找序的艺术。集中趋势（平均数、中位数、众数）描述数据的"重心"，但选用哪个取决于数据的分布特点和是否存在异常值；离散程度（极差、方差、标准差）描述数据围绕重心的"散漫"程度，标准差是最有信息量的一个。

统计图表把抽象数字变成可视形状：茎叶图保留原始数据、直方图展示分布轮廓、箱线图用五个关键数字高效比较多组数据。散点图和相关系数告诉我们两组数据之间是否存在线性关联，而线性回归则用最小二乘法找到那条最佳拟合直线，决定系数 $R^2$ 衡量拟合的质量。贯穿这一切的核心原则只有一条：相关不等于因果，模型不等于现实——统计工具的终极目的，是帮助我们在不确定的世界里做出更明智的判断。

4

5

=

2

s^2_{\text{明}} = \frac{(80-81)^2+(82-81)^2+(79-81)^2+(81-81)^2+(83-81)^2}{5} = \frac{1+1+4+0+4}{5} = 2

= 8

数据分析与统计基础 | 自在学