代数给我们一套语言,描述变量之间的规律;统计学则给我们一套工具,从真实数据里挖出这些规律。两者的差别在于:代数处理的是精确的符号世界,统计面对的是充满噪声的现实世界。
工具箱里有四类东西:描述"中间水平"的集中趋势,描述"数据有多分散"的离散程度,把抽象数字变成可视形状的统计图表,以及探索两组数据之间关系的散点图与线性回归。 这些工具不是枯燥的公式游戏——它们是 NBA 球队选秀、医院对比药物疗效、Netflix 推荐系统背后共同的数学语言。
面对一组数据,最自然的问题是:"哪个数最能代表这组数据的典型水平?"统计学给出了三个候选者,各有擅长。
平均数(Mean)是最常见的一个。把所有数据相加,再除以个数:
平均数把每个数据都纳入计算,非常"民主"——但这也是它的弱点。对于一组成绩 ,平均分约为 ,这是合理的代表。然而如果班里加入一个考了 分的同学,平均分立刻从 跌到 ——一个极端值就把整组数据的代表性破坏了。
中位数(Median)是把数据从小到大排列后正中间的那个值。若数据个数为奇数,中位数就是第 个;若为偶数,则取中间两个的平均值。中位数对极端值几乎免疫:加入那个 分的同学后,七人排序变成 ,中位数从 只变到 ,稳得多。这就是为什么房价、居民收入这类数据往往报告中位数而非平均数——少数豪宅或亿万富翁不该让人误以为"大家都很有钱"。
众数(Mode)是出现次数最多的值,适合描述分类数据或离散数据的主流倾向。一家奶茶店统计甜度选择,五分糖出现了 次、七分糖 次、三分糖 次,众数就是五分糖——它反映了最受欢迎的选项,对连续型数据则不那么适用。
三者的关系值得记住:当数据分布对称时,平均数、中位数、众数三者接近甚至重合;当数据向右倾斜(有高端异常值)时,平均数 > 中位数 > 众数;向左倾斜时方向相反。选用哪个,取决于数据的分布特点和你想说明的具体问题。

集中趋势只描述了数据的"重心"在哪里,却没有告诉我们数据分布有多宽。看这两组数据:组 A 是 ,组 B 是 。两组平均数都是 ,但组 A 三人成绩几乎相同,组 B 则差距悬殊。集中趋势相同,不代表数据的"形状"相同。
极差(Range)是最粗糙的离散程度指标:最大值减最小值。组 A 极差为 ,组 B 为 ,一目了然。但极差只用了两个端点,完全忽略了中间所有数据的分布信息,太过粗糙。
方差(Variance)让每一个数据都参与进来,衡量每个数据点距离均值的平均偏离程度:
取平方是必要的:偏差有正有负,直接求和会互相抵消。平方后所有项变为正数,能真实反映偏离的大小。以组 B 为例():,方差为 ;组 A 的方差则约为 ,远小于组 B。
方差有一个单位上的麻烦:若原始数据单位是"分",方差的单位就是"分²",解读起来很别扭。对方差开根号,得到标准差(Standard Deviation):
标准差恢复了原始单位,其直观含义是:数据点平均偏离均值约多少。组 B 的标准差约为 分,组 A 约为 分。这个含义在生活中随处可见:城市 A 年均气温 、标准差 ,意味着大多数时候在 之间;城市 B 同样平均 ,但标准差 ,夏天可热到 、冬天冷到 ——同样的均值,体验完全不同。

数字是抽象的,好的图表能在几秒内让人抓住核心信息。三种最常用的统计图表各有侧重。
茎叶图适合展示小数据集的分布,同时完整保留原始数据。以 12 位同学一周运动时间(小时) 为例,以十位数为"茎"、个位数为"叶"排列,可以一眼看出数据集中在哪个区间、分布是否对称。
直方图用矩形的面积表示频率或频数,适合展示大数据集的分布。横轴是数值区间(组距),纵轴是频数或频率,矩形之间紧密相连——这区别于条形图(用于分类数据,矩形之间有间隔)。直方图的形状会告诉你数据是否对称、是否有偏斜、峰值在哪里。
箱线图用五个关键数字来描述数据:最小值(Min)、第一四分位数 (第 25 百分位)、中位数 (第 50 百分位)、第三四分位数 (第 75 百分位)、最大值(Max)。中间的矩形"箱子"覆盖 到 的范围,称为 IQR ,代表中间 50% 数据所在的区间。落在 以下或 以上的点被标记为(outlier)。

箱线图最强大的用途是并列比较多组数据:把两个班的成绩箱线图并列画在同一坐标系上,哪个班成绩更高、哪个班发挥更稳定,一眼就能看出来——这比对着两列数字发呆高效得多。
前面讨论的都是单组数据的分析。现实中更多的问题是:两组数据之间有没有规律性的联系? 身高与体重有关吗?学习时间越长成绩越好吗?广告投入越多销售额越高吗?回答这类问题,需要散点图(Scatter Plot)。
散点图的画法是:以一组数据为横轴(自变量 ),另一组为纵轴(因变量 ),每对数据 对应坐标系上的一个点。把所有点画出来后,观察点云的整体形态:若点云从左下向右上延伸,是正相关( 增大时 趋向增大);若从左上向右下延伸,是负相关( 增大时 趋向减小);若点云杂乱无规律,则。相关性还有强弱之分:点云越紧密地靠近一条直线,相关性越强。

统计学家用相关系数 来量化线性相关的程度与方向, 的范围是 。 接近 是强正相关,接近 是强负相关,接近 则几乎没有线性关联。通常 视为强相关, 为中等相关, 为弱相关。
相关不等于因果。 研究发现城市里冰淇淋销量与溺水人数呈正相关,但这绝不意味着"吃冰淇淋导致溺水"——背后的真实原因是夏天天热,既让人买冰淇淋,也让人去游泳。发现相关性只是提示你去追问因果,而不是直接下结论。
散点图告诉我们"有关系",线性回归(Linear Regression)则告诉我们"关系长什么样"。目标是找一条直线 ,使它最好地穿过点云。"最好"的标准是所有数据点到这条直线的竖向距离(残差)的平方和最小,这个方法叫做最小二乘法(Least Squares Method)。
斜率 和截距 由以下公式给出:
公式看起来复杂,但逻辑清晰:它把所有数据点的贡献都纳入计算,找到使总误差最小的那条线。斜率 的含义是" 每增加 1 个单位, 平均增加 个单位";截距 是 时的预测值。
得到回归方程之后,可以用它做预测。若预测点在原始数据范围内,叫做插值(interpolation),相对可靠;若在数据范围外,叫做外推(extrapolation),需要谨慎——模型是对已有数据的拟合,不保证在数据范围外依然成立。

衡量回归效果的指标是决定系数 (),范围在 之间。 意味着 的变化能解释 变化的 ,剩余 由模型未捕捉到的其他因素决定。 越大,回归直线对数据的拟合越好。
某外卖平台记录了 10 位骑手在同一时段的送餐时间(分钟):
求平均数、中位数和众数,并说明哪个指标最能代表典型送餐时间。
排序:。
两位同学各参加了 5 次数学竞赛,成绩如下:小明 ;小红 。两人平均分均为 分,谁更稳定?
计算小明的方差():
某校收集了 8 名同学每天屏幕使用时间(小时)和睡眠时间(小时)的数据:
描述相关性类型与强度,并讨论能否得出因果结论。
增大时 明显减小,散点大体沿向右下倾斜的直线分布,这是负相关。
数据点几乎紧贴一条直线(实际计算 ),属于强负相关。
某品牌连续 6 个月的广告费用(万元)与销售额(万元)数据如下,已知最佳拟合直线为 ,:
解释斜率含义,预测广告费 万元时的销售额,并说明能否预测广告费 万元时的情况。
斜率 表示广告费每增加 万元,销售额平均增加 万元。截距 表示广告费为 时的基础销售额约为 万元。
练习一:数据 的平均数、中位数和众数各是多少?
排序后:。平均数 ;中位数为第 4 个数 ;众数 (出现 3 次)。数据向右偏斜(最大值 20 拉高了平均数),故中位数和众数(均为 8)更能代表典型水平。
练习二:数据 的标准差是多少?
。方差 。标准差 。
练习三:相关系数 说明两组数据存在什么类型和强度的相关?
,方向为负相关( 增大时 趋向减小);,强度为弱负相关,两组数据之间几乎没有显著的线性联系。
练习四:若回归方程 ,原始数据 范围为 ,用 预测和用 预测分别可靠吗?
在原始数据范围内,属于插值,预测相对可靠:。 远超数据范围,属于大幅外推,模型不保证成立,预测结果不可靠,不应直接使用。
数据分析是一门从乱中找序的艺术。集中趋势(平均数、中位数、众数)描述数据的"重心",但选用哪个取决于数据的分布特点和是否存在异常值;离散程度(极差、方差、标准差)描述数据围绕重心的"散漫"程度,标准差是最有信息量的一个。
统计图表把抽象数字变成可视形状:茎叶图保留原始数据、直方图展示分布轮廓、箱线图用五个关键数字高效比较多组数据。散点图和相关系数告诉我们两组数据之间是否存在线性关联,而线性回归则用最小二乘法找到那条最佳拟合直线,决定系数 衡量拟合的质量。贯穿这一切的核心原则只有一条:相关不等于因果,模型不等于现实——统计工具的终极目的,是帮助我们在不确定的世界里做出更明智的判断。
计算平均数:
计算中位数(共 10 个数,取第 5、6 个的均值):
众数为 (出现 2 次,其余各出现 1 次)。
分钟是明显的异常值,将平均数从 拉高到 。在这种情况下,中位数 分钟最能代表典型送餐水平,不受那一个极端值的干扰。
计算小红的方差():
小明标准差 分远小于小红的 分,说明小明的成绩更稳定。小红虽然平均分相同,但发挥起伏极大——有时能考 ,有时只有 。
这组数据只能说明屏幕时间与睡眠时间之间存在强负相关,不能直接得出因果结论。可能是刷手机影响了睡眠,也可能存在第三个共同原因(例如某些学生本来习惯晚睡,睡前无聊才刷手机)。要证明因果关系,需要严格设计对照实验。
将 代入(在数据范围 内,属于插值):
不建议用该方程预测广告费 万元的销售额。原始数据仅覆盖 万元范围,代入 是大幅度外推。销售额不可能无限线性增长,模型在如此远的范围外不再可靠,预测结果几乎没有参考价值。