联合分布、多元随机变量与相关结构

前面几章一直在看一个随机变量：它把一次随机试验的结果变成数轴上的一个数。很多问题不会只记录一个数。一次学生调查可能同时记录学习时间和测验成绩；一次设备测试可能同时记录温度、压力和寿命；一次金融观察可能同时记录两只资产的收益率。

这一章把随机变量从一个扩展到多个。重点不是把公式写得更长，而是学会问一个更完整的问题：这些量各自怎样分布，它们又怎样一起变化？

样本空间中的样本点通过随机变量 X 和随机变量 Y 映射到二维平面，并形成带概率权重的联合分布示意图 — 两个随机变量把样本点映射成二维平面上的点，联合分布记录这些点如何带着概率出现。

联合分布回答什么问题

设 $X$ 和 $Y$ 是同一个随机试验上的两个随机变量。单独看 $X$ 的分布，只能回答“ $X$ 落在某个范围内的概率是多少”；单独看 $Y$ 的分布，只能回答“ $Y$ 落在某个范围内的概率是多少”。联合分布回答的是：

P(X \in A,\ Y \in B)

也就是两个条件同时发生的概率。这里的逗号通常读作“并且”。它不是两个概率的简单并列，而是描述 $X$ 和 $Y$ 是否一起偏大、一起偏小、相互制约，或者几乎没有关系。

如果把 $X$ 和 $Y$ 合在一起，可以写成一个随机向量：

\mathbf{Z}=(X,Y)

更一般地，多个随机变量可以写成：

\mathbf{X}=(X_1,X_2,\ldots,X_d)

这一章主要讲二维情形，因为二维已经能展示联合分布、边缘分布、独立性和相关结构的核心。高维情形的符号更长，但想法相同。

联合分布比边缘分布包含更多信息。知道每个随机变量自己的分布，并不一定知道它们怎样配对出现。

离散情形：联合 PMF 与边缘分布

如果 $X$ 和 $Y$ 都是离散随机变量，联合 PMF 定义为：

p_{X,Y}(x,y)=P(X=x,\ Y=y)

它必须满足两个条件：

p_{X,Y}(x,y)\ge 0

以及

\sum_x \sum_y p_{X,Y}(x,y)=1

离散联合分布常用表格表示。每个单元格是一个二元取值同时发生的概率。把某一列或某一行加起来，就会得到单个随机变量的分布，这叫边缘分布。

二维离散联合 PMF 表格及按行、按列相加得到边缘分布的中文教学图 — 联合 PMF 表中的每个单元格描述一对取值，行和列的求和给出边缘分布。

设 $X$ 可以取 $0,1,2$ ， $Y$ 可以取 $0,1,2$ ，联合 PMF 如下：

$Y \backslash X$	$0$	$1$	$2$	行和
$0$	$0.10$	$0.15$

从表中读出边缘分布时，要先固定一个变量，再把另一个变量的所有可能取值加掉：

p_X(x)=\sum_y p_{X,Y}(x,y)

p_Y(y)=\sum_x p_{X,Y}(x,y)

例如：

p_X(1)=0.15+0.10+0.10=0.35

p_Y(1)=0.20+0.10+0.20=0.50

例题：从联合表计算期望和协同变化

沿用上面的联合 PMF，求 $E[X]$ 、 $E[Y]$ 和 $E[XY]$ 。

先用边缘分布计算 $E[X]$ 。由列和可得 $p_X(0)=0.35$ ， $p_{X} (1) = 0.35$ ，，所以。

E[XY]=\sum_x\sum_y xy\,p_{X,Y}(x,y)=0.90

这个 $E[XY]$ 会在后面用于计算协方差。

连续情形：联合 PDF 与区域概率

如果 $X$ 和 $Y$ 是连续随机变量，联合密度函数 $f_{X,Y}(x,y)$ 本身不是点概率。它通过二维区域上的积分给出概率：

P((X,Y)\in A)=\iint_A f_{X,Y}(x,y)\,dx\,dy

联合 PDF 必须非负，并且在整个平面上的积分为 $1$ ：

f_{X,Y}(x,y)\ge 0

\int_{-\infty}^{\infty}\int_{-\infty}^{\infty} f_{X,Y}(x,y)\,dx\,dy=1

边缘密度同样来自“把另一个变量加掉”，只是离散情形的求和换成积分：

f_X(x)=\int_{-\infty}^{\infty} f_{X,Y}(x,y)\,dy

f_Y(y)=\int_{-\infty}^{\infty} f_{X,Y}(x,y)\,dx

三维联合密度曲面通过沿变量方向积分得到边缘密度的示意图 — 连续情形中，边缘密度是把联合密度沿另一个方向积分后得到的投影。

例题：三角区域上的联合密度

设联合密度为：

f_{X,Y}(x,y)= \begin{cases} 2, & 0<x<y<1,\\ 0, & \text{其他情形}. \end{cases}

先检查它为什么是合法密度。因为支持区域是单位正方形内的上三角，面积为 $1/2$ ，密度高度为 $2$ ，总体积为 $1$ 。

求 $X$ 的边缘密度时，固定 $x$ 。在条件 $0<x<y<1$ 下， $y$ 从 $x$ 积到 $1$ ：

f_X(x)=\int_x^1 2\,dy=2(1-x),\quad 0<x<1

求 $Y$ 的边缘密度时，固定 $y$ 。此时 $x$ 从 $0$ 积到 $y$ ：

f_Y(y)=\int_0^y 2\,dx=2y,\quad 0<y<1

于是：

P(X<1/2)=\int_0^{1/2}2(1-x)\,dx=\frac{3}{4}

连续联合密度在某一点的数值可以大于 1，也可以小于 1；它不是概率。真正的概率来自区域面积上的积分。

二维分布函数

二维 CDF 定义为：

F_{X,Y}(x,y)=P(X\le x,\ Y\le y)

它对应平面中点 $(x,y)$ 左下方的累计概率。这个定义同时适用于离散和连续随机变量。离散时，CDF 是左下方概率质量的总和；连续时，CDF 是左下方区域的密度积分。

二维分布函数 F(x,y) 中 X≤x、Y≤y 对应的左下方累计概率区域示意图 — 二维 CDF 的核心图像是左下方区域：同时满足 $X\le x$ 与 $Y\le y$ 。

二维 CDF 还能计算矩形概率。若要计算：

P(a<X\le b,\ c<Y\le d)

可以用四个角上的 CDF 做容斥：

P(a<X\le b,\ c<Y\le d) =F_{X,Y}(b,d)-F_{X,Y}(a,d)-F_{X,Y}(b,c)+F_{X,Y}(a,c)

这和前面事件容斥的思路一致。先取到右上角的累计概率，再去掉左边和下边多算的部分，最后把左下角被减掉两次的部分加回来。

独立随机变量的联合分解

两个随机变量独立，意思是一个变量落入某个集合的信息不会改变另一个变量落入某个集合的概率。对任意合适的集合 $A$ 和 $B$ ，有：

P(X\in A,\ Y\in B)=P(X\in A)P(Y\in B)

在离散情形，这等价于对所有 $x,y$ 都有：

p_{X,Y}(x,y)=p_X(x)p_Y(y)

在连续情形，通常写成：

f_{X,Y}(x,y)=f_X(x)f_Y(y)

在 CDF 层面，也有：

F_{X,Y}(x,y)=F_X(x)F_Y(y)

左右并排的联合分布热力图，对比独立随机变量的乘积分解结构与非独立随机变量的相关结构 — 独立时联合结构可以拆成两个边缘的乘积；非独立时，联合图像中会出现不能由单个变量解释的结构。

用前面的离散表检查一下独立性。表中：

p_{X,Y}(0,0)=0.10

但边缘分布给出：

p_X(0)p_Y(0)=0.35\times 0.30=0.105

两者不相等，所以 $X$ 和 $Y$ 不独立。这个例子也提醒我们，独立性要求每个单元格都满足乘积分解，不是“看起来差不多”。

连续三角密度的例子也不独立。因为它的支持区域是 $0<x<y<1$ 。只要知道 $Y=y$ ，就知道 $X$ 必须小于 $y$ ；这种限制本身已经说明两个变量之间有依赖。

边缘分布相同不代表联合分布相同。两组变量可以有完全一样的 $f_X$ 和 $f_Y$ ，但一个独立，一个强相关。相关结构藏在联合分布里。

协方差与相关系数

联合分布可以给出很多描述“共同变化”的量。最常用的是协方差：

\operatorname{Cov}(X,Y)=E[(X-E[X])(Y-E[Y])]

计算时常用等价形式：

\operatorname{Cov}(X,Y)=E[XY]-E[X]E[Y]

如果 $X$ 高于自己的均值时， $Y$ 也常高于自己的均值，那么乘积 $(X-E[X])(Y-E[Y])$ 往往为正，协方差倾向于正。如果一个高时另一个低，协方差倾向于负。如果正负抵消得多，协方差接近 $0$ 。

相关系数把协方差除以两个标准差，使它没有单位：

\rho_{X,Y}=\frac{\operatorname{Cov}(X,Y)}{\sigma_X\sigma_Y}

这里要求 $\sigma_X>0$ 且 $\sigma_Y>0$ 。相关系数总在 $[-1,1]$ 之间。它越接近，线性同向关系越强；越接近，线性反向关系越强；接近，只说明线性关系弱。

四个散点图对比正相关、负相关、接近不相关和弯曲关系，说明相关系数只刻画线性方向和强度 — 相关系数只测量线性方向和线性强度；弯曲结构可能让相关系数接近 $0$ 。

继续前面的离散表。已经得到：

E[X]=0.95,\quad E[Y]=0.90,\quad E[XY]=0.90

所以：

\operatorname{Cov}(X,Y)=0.90-0.95\times 0.90=0.045

再计算方差：

E[X^2]=0^2\cdot 0.35+1^2\cdot 0.35+2^2\cdot 0.30=1.55

\operatorname{Var}(X)=1.55-0.95^2=0.6475

E[Y^2]=0^2\cdot 0.30+1^2\cdot 0.50+2^2\cdot 0.20=1.30

\operatorname{Var}(Y)=1.30-0.90^2=0.49

因此：

\rho_{X,Y} =\frac{0.045}{\sqrt{0.6475\times 0.49}} \approx 0.08

这个正相关很弱。虽然协方差为正，但表中的联合结构离“强线性关系”很远。

独立一定推出协方差为 $0$ ，前提是相关期望存在。但协方差为 $0$ 不一定推出独立。相关系数接近 $0$ 也不代表两个变量没有任何关系。

多元随机变量与相关矩阵

当随机变量不止两个时，可以把它们放进随机向量：

\mathbf{X}=(X_1,X_2,\ldots,X_d)

联合分布描述这个向量在 $d$ 维空间中的概率规律。单个变量的边缘分布只看一个坐标，两个变量的联合分布看两个坐标，完整联合分布看所有坐标一起出现的方式。

多元情形中，协方差常整理成协方差矩阵：

Σ = (\begin{array}{cccc} Var (X_{1}) & Cov (X_{1}, X_{2}) & \dots & Cov (X_{1}, X_{d}) \\ Cov (X_{2}, X_{1}) & Var (X_{2}) & \dots & Cov (X_{2}, X_{d}) \\ ⋮ & ⋮ & ⋱ & ⋮ \\ Cov \end{array}

对角线是各自的方差，非对角线是两两协方差。它是对称矩阵，因为：

\operatorname{Cov}(X_i,X_j)=\operatorname{Cov}(X_j,X_i)

如果把协方差都标准化，就得到相关矩阵。相关矩阵的对角线都是 $1$ ，非对角线在 $[-1,1]$ 之间。

多元正态分布是一个很重要的例子。它的均值向量决定中心位置，协方差矩阵决定椭圆形状、方向和伸展程度。对于多元正态，若两个分量协方差为 $0$ ，它们就独立；但这个结论依赖“多元正态”这一额外结构，不能随便推广到所有分布。

常见误区

误区一：把联合概率当成边缘概率相乘

只有独立时才可以写：

P(X\in A,\ Y\in B)=P(X\in A)P(Y\in B)

如果题目没有给独立，不能默认相乘。很多实际问题中，两个变量正是因为有关系才被一起研究。

误区二：把不相关当成独立

设 $X$ 在 $[-1,1]$ 上均匀分布，令 $Y=X^2$ 。 $Y$ 完全由 $X$ 决定，所以它们显然不独立。但因为对称性，，可以得到。这说明协方差只捕捉线性共同变化。

误区三：忽略支持区域

连续联合密度不能只看公式，还要看在哪个区域上非零。前面的三角密度 $f(x,y)=2$ 看起来只是一个常数，但条件 $0<x<y<1$ 已经写进了变量之间的限制。

误区四：只看相关系数大小

相关系数接近 $0$ 时，可能是变量真的几乎没有关系，也可能是关系弯曲、分段或有极端点抵消。看相关系数之前，先想联合分布或散点图长什么样。

练习

练习一：联合表的合法性

某二维离散分布给出下表：

$Y \backslash X$	$0$	$1$
$0$	$0.20$	$0.30$
$1$

它是不是合法的联合 PMF？若不是，问题在哪里？

不是合法的联合 PMF。所有单元格都非负，但总和是 $0.20+0.30+0.10+0.35=0.95$ ，没有等于 $1$ 。如果这是漏写了某个取值，还需要补全样本空间；如果取值只可能是表中的四种，就必须重新归一化或修正概率。

练习二：求边缘分布

对练习一的表，把右下角改成 $0.40$ 。求 $p_X(0)$ 、 $p_X(1)$ 、 $p_Y(0)$ 、。

修改后总和为 $1$ 。列和给出 $p_X(0)=0.20+0.10=0.30$ ， $p_X(1)=0.30+0.40=0.70$ 。行和给出，。

练习三：检查独立性

沿用练习二的合法联合表，判断 $X$ 和 $Y$ 是否独立。

不独立。若独立，应有 $p_{X,Y}(0,0)=p_X(0)p_Y(0)$ 。左边是，右边是，两者不相等。只要找到一个格子不满足乘积分解，就能判定不独立。

练习四：连续边缘密度

设：

f_{X,Y}(x,y)= \begin{cases} 6xy, & 0<x<1,\ 0<y<1,\\ 0, & \text{其他情形}. \end{cases}

这个函数是不是合法的联合密度？如果不是，应该怎样修改常数？

在单位正方形上积分得到 $\int_0^1\int_0^1 6xy\,dy\,dx=6\cdot \frac{1}{2}\cdot \frac{1}{2}=1.5$ ，所以不是合法密度。若写成，需要，因此。

练习五：不相关但不独立

设 $X$ 以概率 $1/3$ 分别取 $-1,0,1$ ，令 $Y=X^2$ 。说明 $X$ 和不独立，并计算。

$Y$ 由 $X$ 完全决定，所以一般不独立。例如 $P(Y=0)=1/3$ ，但 $P(Y=0\mid X=0)=1$ 。计算协方差时，，，，所以。因此。这就是不相关但不独立的一个离散例子。

本章小结

联合分布描述多个随机变量怎样一起取值。离散情形用联合 PMF，连续情形用联合 PDF，二维 CDF 则从左下方累计概率的角度描述联合规律。

边缘分布来自对另一个变量求和或积分。这个操作会丢掉配对信息，所以边缘分布不能替代联合分布。独立性要求联合分布可以拆成边缘分布的乘积，这是很强的条件。

协方差和相关系数是描述共同变化的摘要。它们很有用，但只抓住线性层面的关系。真正判断变量之间的结构，仍要回到联合分布、支持区域、散点形状和建模条件。

p_X(1)=0.35

(

X_{d}

,

X_{1}

)

Cov (X_{d}, X_{2})

\dots

Var (X_{d})

)

\Sigma= \begin{pmatrix} \operatorname{Var}(X_1) & \operatorname{Cov}(X_1,X_2) & \cdots & \operatorname{Cov}(X_1,X_d)\\ \operatorname{Cov}(X_2,X_1) & \operatorname{Var}(X_2) & \cdots & \operatorname{Cov}(X_2,X_d)\\ \vdots & \vdots & \ddots & \vdots\\ \operatorname{Cov}(X_d,X_1) & \operatorname{Cov}(X_d,X_2) & \cdots & \operatorname{Var}(X_d) \end{pmatrix}

联合分布、多元随机变量与相关结构 | 概率论 I | 自在学