相关不等于因果

想象一条新闻标题这样写：某城市冰淇淋销量越高，水边救援记录也越多。这个说法听起来像在暗示“冰淇淋让人更容易遇到危险”。但你很快会觉得哪里不对：天气热的时候，买冰淇淋的人变多，下水游玩的人也变多。两个量确实一起变化，可它们未必互相导致。

统计里经常会遇到这种情况：我们先看到两个变量一起升高、一起降低，或者一个升高时另一个降低。这个现象叫相关。相关很有用，它能提醒我们“这里可能有线索”。但相关不是因果证明。要判断一个变量是否真的导致另一个变量变化，还要继续问：有没有隐藏变量？时间顺序对不对？有没有反向解释？数据是观察来的，还是实验来的？

这一节的目标不是让你立刻会做复杂回归，而是学会读散点图、理解相关系数的方向和强弱，并在看到“因为……所以……”之前多停一秒。

先看散点图

散点图用一个点表示一个个体或一次观察。横轴放一个变量，纵轴放另一个变量。比如每个学生都有“每周学习时间”和“考试成绩”，每名学生就是图上的一个点。

如果点大致从左下到右上排列，说明横轴变量较大时，纵轴变量通常也较大，这叫正相关。如果点大致从左上到右下排列，说明横轴变量较大时，纵轴变量通常较小，这叫负相关。如果点像一团云一样没有明显方向，就说线性相关很弱，或者没有明显线性相关。

三幅并排散点图分别展示正相关、负相关和无明显相关

散点图最值得看的不是某一个点，而是整团点云的形状。你可以先问四个问题：

点云大致往哪个方向倾斜？
点云贴得紧，还是散得开？
有没有特别远的异常点？
点云像直线，还是像弯曲的曲线？

下面这个小实验可以调节点云的方向和噪声。你会看到：方向决定正负，点云的松紧影响相关强弱。

散点图比一句“相关系数是多少”更早一步。先看图，再看数，能帮你发现异常点、弯曲关系和分组结构。只看一个数字，容易把不同形状的数据误读成同一种关系。

隐藏变量：第三个量可能在背后推

隐藏变量，也常叫潜在变量或混杂因素，是同时影响两个被观察变量的第三个因素。它没有出现在你的表格里，却可能解释两个变量为什么一起变化。

冰淇淋销量和水边救援记录的例子里，气温就是一个隐藏变量。气温升高时，冰淇淋销量上升；气温升高时，下水游玩的人也变多，救援记录可能跟着上升。观察数据里冰淇淋和救援记录相关，但更合理的解释是它们都被气温推动。

气温同时影响冰淇淋销量和下水人数的隐藏变量示意图

下面的交互把气温作为背后的共同原因。先看所有月份混在一起时的散点，再打开“按气温分组查看”。你会看到：分组以后，原本很显眼的相关可能变弱。

看到相关时，先不要只问“是不是 A 导致 B”。也要问“有没有 C 同时影响 A 和 B”。这个 C 常常是年龄、季节、收入、健康状态、先前能力、地区差异或选择方式。

真实情境：咖啡、吸烟与肺部健康

在观察性健康数据里，人们曾看到咖啡饮用量和某些肺部健康风险一起变化。如果直接说“咖啡导致风险增加”，就太快了。一个关键问题是：喝咖啡较多的人群中，吸烟比例是否也更高？如果吸烟同时影响咖啡习惯和肺部健康，吸烟就可能成为混杂因素。

这种例子提醒我们：观察性数据可以提出怀疑，但要接近因果结论，通常需要更精细的研究设计，例如控制混杂因素、比较相似人群、追踪时间顺序，或者在伦理允许时做随机对照实验。

四种常见解释

当两个变量 A 和 B 相关时，至少有四种可能：

A 影响 B。
B 影响 A。
第三个变量 C 同时影响 A 和 B。
它们只是样本中碰巧一起变化，或者测量方式制造了假象。

四种相关背后可能解释的箭头图：A 到 B、B 到 A、C 同时指向两者、巧合

比如“运动 App 使用频率和体重下降相关”。可能是使用 App 帮助人坚持运动，也可能是已经决定减重的人更愿意装 App，还可能是收入、时间安排、健康意识同时影响两者。只凭相关，无法把这些解释排除掉。

“A 和 B 相关”不能自动改写成“A 导致 B”。这个改写看起来只换了几个字，实际却把证据等级提高了很多。

从相关到因果，证据要加码

如果我们真的想说“一个变量导致另一个变量变化”，通常需要更强的证据。最理想的情况是随机实验：把相似个体随机分到不同处理组，让其他因素尽量平均分布，再比较结果差异。

现实中很多问题不能随便做实验。比如不能为了研究危害而随机让人吸烟，也不能随意改变一个城市的教育资源。这时，研究者会用观察性数据做更谨慎的设计：控制混杂因素，比较相似个体，利用时间先后，寻找自然实验，或者用多组证据互相验证。

从相关到因果判断的调查清单，包括时间先后、隐藏变量和对照实验等线索

可以用下面的检查清单帮助自己慢下来：

时间顺序：原因是否发生在结果之前？
替代解释：有没有反向因果或共同原因？
可比性：两组对象除了被研究变量外是否足够相似？
分组结构：合并数据后看到的趋势，在分组内是否仍然存在？
机制：是否有合理解释说明为什么 A 会影响 B？
证据等级：这是随机实验、观察性研究，还是只是一张相关图？

更谨慎的写法

把强因果句改成观察句，是统计表达里的基本功。

太快的说法	更谨慎的说法
多喝咖啡导致健康风险升高。	在这组观察数据中，咖啡饮用量和某项健康风险呈正相关；还需要检查吸烟、年龄等混杂因素。
使用学习 App 能提高成绩。	使用学习 App 的学生平均成绩更高；可能还与原有基础、学习习惯和家庭支持有关。
城市绿地让居民更幸福。	绿地比例较高的社区，幸福感调查分数也较高；收入、交通、房价和社区服务可能同时起作用。

练习

练习一：判断方向

某地记录一周内每天的最高气温和热饮销量。气温越高，热饮销量通常越低。这个关系更可能是正相关、负相关，还是无明显相关？

这是负相关。横轴如果放最高气温，纵轴放热饮销量，点云大致会从左上往右下倾斜。它说明气温较高的日子热饮销量通常较少，但单靠这组数据还不能精确说明销量变化完全由气温导致。

练习二：找隐藏变量

一项观察发现：儿童的鞋码越大，阅读测试分数通常越高。能不能说“鞋码变大会提高阅读能力”？如果不能，一个可能的隐藏变量是什么？

不能这样说。一个明显的隐藏变量是年龄。年龄较大的儿童通常鞋码更大，也接受了更长时间的阅读训练，所以阅读分数更高。鞋码和阅读分数相关，但鞋码本身不是合理原因。

练习三：改写因果句

把下面这句话改写得更谨慎： “睡眠时间越长，考试成绩越高，所以多睡觉会直接提高成绩。”

可以改成：“在这组学生数据中，睡眠时间和考试成绩呈正相关。要判断睡眠是否会提高成绩，还需要考虑学习时间、压力、基础水平、健康状况等因素，并尽量比较其他条件相似的学生。”这个说法保留了观察结果，同时没有把相关直接升级为因果。

练习四：解释相关系数

某组数据的相关系数为 $r=-0.12$ 。这说明两个变量一定没有关系吗？

不一定。 $r=-0.12$ 说明线性相关很弱，方向略微偏负。但两个变量可能存在非线性关系，也可能被异常点、分组结构或测量误差影响。正确做法是先看散点图，再结合背景判断。

小结

相关是观察到的共同变化，因果是关于变化原因的判断。散点图能帮助我们看方向、强弱、异常点和形状；相关系数能把线性关系压缩成一个从 $-1$ 到 $1$ 的数字。它们都很有用，但都不能单独证明因果。