随机变量函数、变量变换与卷积

前面几章已经把一个随机变量的分布、两个随机变量的联合分布、条件分布和条件期望铺好了。这一章开始问一个更常见的问题：已有随机变量之后，我们对它做函数运算，会得到什么分布？

这类问题看起来像代数计算，其实核心仍然是概率。函数会把数轴上的区间拉伸、压缩、折叠，也可能把平面上的一块区域扭成另一块区域；概率质量或概率面积不会凭空消失，只是换了坐标、换了位置。变量变换和卷积就是把这件事写成可计算的公式。

随机变量函数示意图：样本空间 Ω 中的随机结果经 X 映到数轴，再通过函数 g 形成新变量 Y，概率质量随映射传递。 — 随机变量函数的基本图景：先由随机结果得到 $X$ ，再通过函数 $g$ 得到 $Y=g(X)$ 。

这一章解决什么问题

设 $X$ 是一个随机变量， $g$ 是一个普通函数。定义

Y=g(X)

后， $Y$ 也是随机变量。问题是：如果已知 $X$ 的分布，怎样求 $Y$ 的分布？

如果 $X$ 是离散型随机变量，最直接的办法是把落到同一个 $y$ 的所有 $x$ 概率加起来：

P(Y=y)=\sum_{x:g(x)=y}P(X=x)

如果 $X$ 是连续型随机变量，就不能用“点概率”来搬运概率，因为 $P(X=x)=0$ 。这时要搬运的是区间概率或密度面积。最稳妥的方法有两条：先求分布函数，或者使用变量变换公式。

本章会反复使用一个原则：先找原像，再搬概率。对事件 $Y\in B$ ，它在 $X$ 轴上的原像是所有满足 $g(x)\in B$ 的点，因此

P(Y\in B)=P(X\in g^{-1}(B))

这个等式比任何公式都更基础。单调变换、非单调变换、Jacobian、卷积、最大值和最小值，都可以看成它的不同展开。

本章的公式很多，但不要把它们背成互不相关的模板。遇到新变量，先问三个问题：新变量由哪些旧变量决定？给定新变量取某个值时，旧变量可能在哪里？这些旧位置的概率密度要怎样换算到新坐标上？

从分布函数法开始

分布函数法适合几乎所有一维变换。它不要求变换一开始就是单调的，也不要求你马上记住密度公式。设 $Y=g(X)$ ，则

F_Y(y)=P(Y\le y)=P(g(X)\le y)

右边只含 $X$ ，可以用 $X$ 的分布来算。若最后得到的 $F_Y(y)$ 可导，再对 $y$ 求导得到 $f_Y(y)$ 。

例子：平方会把负半轴折到正半轴

设 $X\sim \operatorname{Uniform}(-1,1)$ ，令 $Y=X^2$ 。因为平方后一定非负，且最大为 $1$ ，所以 $Y$ 的支持是。

当 $0\le y\le 1$ 时，

F_Y(y)=P(Y\le y)=P(X^2\le y)

不等式 $X^2\le y$ 等价于 $-\sqrt y\le X\le \sqrt y$ ，因此

F_Y(y)=\frac{2\sqrt y}{2}=\sqrt y

于是

f_Y(y)=F_Y'(y)=\frac{1}{2\sqrt y},\quad 0<y<1

完整写成分段形式是

F_Y(y)= \begin{cases} 0, & y<0,\\ \sqrt y, & 0\le y\le 1,\\ 1, & y>1. \end{cases}

这个例子提醒我们：平方不是一对一的。一个正的 $y$ 同时来自 $x=\sqrt y$ 和 $x=-\sqrt y$ 。分布函数法自动把两侧都算进去了。

连续变换最容易漏掉支持。上面的密度 $\frac{1}{2\sqrt y}$ 只在 $0<y<1$ 上成立；如果忘记写支持，公式就像一个没有边界的函数，积分也不再等于。

一维单调变换

如果 $g$ 在 $X$ 的支持上严格单调，并且反函数 $h=g^{-1}$ 可导，那么可以直接写密度变换公式。设 $Y=g(X)$ ，，则

f_Y(y)=f_X(h(y))\left|h'(y)\right|

也常写成

f_Y(y)=f_X(x)\left|\frac{dx}{dy}\right|,\quad x=g^{-1}(y)

这里的 $\left|\frac{dx}{dy}\right|$ 不是装饰项。它表示轴上一小段长度对应到轴上有多长。密度是“单位长度的概率”，长度变了，密度高度就必须反向调整，才能让小区间概率保持一致。

一维严格单调变量变换中，x 轴小区间 dx 经 y=g(x) 映到 y 轴小区间 dy，概率面积守恒并得到密度公式。 — 单调变换的核心是面积守恒： $f_X(x)\,dx$ 与 $f_Y(y)\,dy$ 表示同一小段概率。

推导：从面积守恒看导数

在 $x$ 附近取一个很短的区间 $[x,x+dx]$ ，它被 $y=g(x)$ 映到 $y$ 附近的短区间，长度近似为

dy\approx g'(x)\,dx

这两个小区间代表同一批随机结果，所以概率近似相等：

f_X(x)\,dx\approx f_Y(y)\,dy

代入 $dy$ 与 $dx$ 的关系，得到

f_Y(y)\approx f_X(x)\left|\frac{dx}{dy}\right|

取极限后就是单调变换公式。

例子：指数随机变量的线性缩放

设 $X\sim \operatorname{Exp}(\lambda)$ ，令 $Y=aX$ ，其中 $a>0$ 。反函数是 $x=y/a$ ，并且

\frac{dx}{dy}=\frac{1}{a}

所以

f_Y(y)=\lambda e^{-\lambda y/a}\frac{1}{a},\quad y>0

这说明 $aX$ 仍然是指数型形状，但速率从 $\lambda$ 变成 $\lambda/a$ 。当 $a$ 变大时，同样的概率被摊到更长的正半轴上，密度高度下降。

例子：对数变换把正数轴展开成全实轴

设 $X\sim \operatorname{Exp}(\lambda)$ ，令 $Y=\log X$ 。反函数是 $x=e^y$ ，导数为 $e^{}$ 。因此

f_Y(y)=\lambda e^{-\lambda e^y}e^y,\quad -\infty<y<\infty

注意支持已经从 $x>0$ 变成全部实数。许多建模问题会先对正值变量取对数，再研究新的分布；变量变换公式告诉我们，不能只把 $x$ 替换成 $e^y$ ，还必须乘上导数因子。

非单调变换

如果 $g$ 不是一对一的，一个 $y$ 可能对应多个 $x$ 。这时不能只挑一个反函数分支。假设对给定的 $y$ ，方程 $g(x)=y$ 有若干个根 $x_1,x_2,\ldots,x_k$ ，并且在这些点附近，则

f_Y(y)=\sum_{i=1}^k f_X(x_i)\left|\frac{1}{g'(x_i)}\right|

这就是“所有原像贡献相加”。单调变换只是 $k=1$ 的特例。

非单调变换 Y=X^2 中，固定 y 大于 0 对应两个原像，左右两侧密度贡献相加得到新密度。 — 非单调变换要把所有原像的贡献加起来。对 $Y=X^2$ ，正的 $y$ 通常来自左右两个 $x$ 。

例子：标准正态的平方

设 $X\sim N(0,1)$ ，令 $Y=X^2$ 。当 $y>0$ 时，两个原像是 $x_1=\sqrt y$ 与。因为，

f_Y(y)=f_X(\sqrt y)\frac{1}{2\sqrt y}+f_X(-\sqrt y)\frac{1}{2\sqrt y}

标准正态密度关于 $0$ 对称，所以

f_Y(y)=\frac{1}{\sqrt{2\pi y}}e^{-y/2},\quad y>0

这就是自由度为 $1$ 的卡方分布密度。这里最值得看的不是结果名称，而是两个分支如何合并：左侧和右侧的概率都被平方函数折到正半轴。

先确定支持。平方后 $Y$ 不可能小于 $0$ ，所以密度只需要在 $y>0$ 上计算。

再解方程。当时有两个原像，分别是和。

离散随机变量函数

离散情形没有导数因子。原因是概率集中在一个个点上，函数只是在把这些点重新归类。设 $X$ 的可能取值为 $x_1,x_2,\ldots$ ，定义 $Y=g(X)$ 。对任意，

P(Y=y)=\sum_{x:g(x)=y}P(X=x)

例子：掷骰子的平方

设 $X$ 是一次公平骰子的点数，令 $Y=(X-3)^2$ 。列出对应关系：

\begin{array}{c|cccccc} x & 1 & 2 & 3 & 4 & 5 & 6\\ \hline (x-3)^2 & 4 & 1 & 0 & 1 & 4 & 9 \end{array}

所以

P(Y=0)=\frac16,\quad P(Y=1)=\frac26,\quad P(Y=4)=\frac26,\quad P(Y=9)=\frac16

这里 $Y=1$ 有两个原像 $2$ 和 $4$ ， $Y=4$ 有两个原像 $1$ 和 $5$ 。这和连续非单调变换的“分支相加”是同一个思想，只是离散点不需要长度换算。

二维变换与 Jacobian

一维变换中的导数因子是长度换算率。二维变换中的 Jacobian 是面积换算率。

设 $(X,Y)$ 有联合密度 $f_{X,Y}(x,y)$ 。定义

U=g_1(X,Y),\quad V=g_2(X,Y)

如果变换在关心的区域内一对一，并且可以反解为

x=x(u,v),\quad y=y(u,v)

则

f_{U,V}(u,v)=f_{X,Y}(x(u,v),y(u,v)) \left| \det \begin{pmatrix} \frac{\partial x}{\partial u} & \frac{\partial x}{\partial v}\\ \frac{\partial y}{\partial u} & \frac{\partial y}{\partial v} \end{pmatrix} \right|

这个行列式的绝对值记为 $\left|\frac{\partial(x,y)}{\partial(u,v)}\right|$ 。它告诉我们平面上一小块面积，对应到平面上大约有多大。

二维变量变换中，xy 平面的小矩形经平滑变换映到 uv 平面的倾斜小面积块，说明 Jacobian 是局部面积换算率。 — Jacobian 是局部面积换算率。它不是概率本身，而是把密度从一个坐标系换到另一个坐标系时必须乘上的面积因子。

例子：和与比例

设 $X$ 和 $Y$ 独立同分布于 $\operatorname{Exp}(\lambda)$ 。令

U=X+Y,\quad V=\frac{X}{X+Y}

其中 $U$ 表示总量， $V$ 表示 $X$ 在总量中的比例。反解为

X=UV,\quad Y=U(1-V)

支持条件是

u>0,\quad 0<v<1

Jacobian 为

\det \begin{pmatrix} \frac{\partial x}{\partial u} & \frac{\partial x}{\partial v}\\ \frac{\partial y}{\partial u} & \frac{\partial y}{\partial v} \end{pmatrix} = \det \begin{pmatrix} v & u\\ 1-v & -u \end{pmatrix} =-u

因此绝对值是 $u$ 。原联合密度为

f_{X,Y}(x,y)=\lambda^2 e^{-\lambda x}e^{-\lambda y} =\lambda^2 e^{-\lambda(x+y)}

代入 $x=uv$ 、 $y=u(1-v)$ 后，

f_{U,V}(u,v)=\lambda^2 e^{-\lambda u}u,\quad u>0,\ 0<v<1

这个联合密度可以分解为

f_{U,V}(u,v)=\left(\lambda^2ue^{-\lambda u}\right)\cdot 1

所以 $U$ 与 $V$ 独立， $U\sim \operatorname{Gamma}(2,\lambda)$ ， $V\sim \operatorname{Uniform}(0,1)$ 。这个结果有清楚的直观含义：两个同速率指数等待时间的总等待时间和比例可以分开描述。

二维变换常见错误是把 Jacobian 写反。若公式使用反函数 $x=x(u,v),y=y(u,v)$ ，就乘 $\left|\frac{\partial(x,y)}{\partial(u,v)}\right|$ ；如果你算的是正向变换，需要取倒数。

卷积：随机变量和的分布

现在考虑两个随机变量的和：

Z=X+Y

如果 $X$ 和 $Y$ 独立，连续情形下 $Z$ 的密度是

f_Z(z)=\int_{-\infty}^{\infty}f_X(x)f_Y(z-x)\,dx

这个公式叫卷积。它来自同一个原像思想：若 $X+Y=z$ ，那么给定 $X=x$ 时， $Y$ 必须等于 $z-x$ 。把所有可能的 $x$ 贡献积分起来，就得到附近的密度。

独立随机变量和的卷积示意图，固定密度曲线与滑动密度曲线的重叠面积给出和变量的密度。 — 卷积可以看成“滑动相乘再积分”：固定 $z$ ，让 $f_Y(z-x)$ 滑过 $f_X(x)$ ，重叠越大，越高。

离散情形下，积分换成求和：

P(Z=z)=\sum_x P(X=x)P(Y=z-x)

这里的独立性非常关键。如果 $X$ 和 $Y$ 不独立，不能把联合概率或联合密度拆成两个边缘分布的乘积。

例子：两个均匀分布相加

设 $X,Y$ 独立且都服从 $\operatorname{Uniform}(0,1)$ ，令 $Z=X+Y$ 。则

f_Z(z)=\int_{-\infty}^{\infty}1_{0<x<1}1_{0<z-x<1}\,dx

积分值等于满足

0<x<1,\quad 0<z-x<1

的 $x$ 区间长度。第二个不等式等价于 $z-1<x<z$ ，所以 $x$ 必须落在

(0,1)\cap(z-1,z)

这个交集的长度随 $z$ 改变。于是

f_Z(z)= \begin{cases} z, & 0<z<1,\\ 2-z, & 1\le z<2,\\ 0, & \text{其他}. \end{cases}

三角形密度不是凭空出现的。它就是两个长度为 $1$ 的区间滑动重叠时，重叠长度先增加后减少。

用二维变换推导卷积

卷积也可以从二维变量变换得到。令

Z=X+Y,\quad W=X

反解为

X=W,\quad Y=Z-W

Jacobian 为

\left| \det \begin{pmatrix} \frac{\partial x}{\partial z} & \frac{\partial x}{\partial w}\\ \frac{\partial y}{\partial z} & \frac{\partial y}{\partial w} \end{pmatrix} \right| = \left| \det \begin{pmatrix} 0 & 1\\ 1 & -1 \end{pmatrix} \right| =1

所以

f_{Z,W}(z,w)=f_{X,Y}(w,z-w)

再对 $w$ 积分得到边缘密度：

f_Z(z)=\int_{-\infty}^{\infty}f_{X,Y}(w,z-w)\,dw

若 $X,Y$ 独立，就得到卷积公式。

卷积的积分上下限常写成 $-\infty$ 到 $\infty$ ，但真正起作用的是支持的交集。解题时不要机械照抄无穷上下限，可以先找出哪些 $x$ 同时让 $f_X(x)$ 和 $f_Y(z-x)$ 非零。

最大值、最小值与顺序统计量入口

函数不一定是加法，也可以是最大值和最小值。设 $X_1,\ldots,X_n$ 独立同分布，公共分布函数为 $F$ 。记

M_n=\max(X_1,\ldots,X_n),\quad m_n=\min(X_1,\ldots,X_n)

最大值的分布函数很自然：

P(M_n\le t)=P(X_1\le t,\ldots,X_n\le t)

由独立性，

F_{M_n}(t)=F(t)^n

如果 $F$ 有密度 $f$ ，则

f_{M_n}(t)=nF(t)^{n-1}f(t)

最小值可以从尾事件看：

P(m_n>t)=P(X_1>t,\ldots,X_n>t)=(1-F(t))^n

所以

F_{m_n}(t)=1-(1-F(t))^n

若可导，

f_{m_n}(t)=n(1-F(t))^{n-1}f(t)

数轴上的样本点排序示意图，突出最小值、最大值与顺序统计量，并展示相关概率公式。 — 顺序统计量先把样本点从小到大排列，再研究第几个点。最大值和最小值是两端的特殊情形。

顺序统计量的一般密度

把样本从小到大排成

X_{(1)}\le X_{(2)}\le \cdots\le X_{(n)}

其中 $X_{(k)}$ 是第 $k$ 小的观测。直观上， $X_{(k)}$ 落在 $t$ 附近，意味着大约有个样本小于，有个样本大于，还有一个样本落在附近。连续情形下，它的密度是

f_{X_{(k)}}(t)= \frac{n!}{(k-1)!(n-k)!} F(t)^{k-1}(1-F(t))^{n-k}f(t)

当 $k=n$ 时就是最大值密度；当 $k=1$ 时就是最小值密度。

常见误区

把 $dy/dx$ 和 $dx/dy$ 用反

若你从 $y=g(x)$ 出发，直觉上很容易写出 $g'(x)$ 。但密度公式需要的是旧坐标长度相对于新坐标长度的换算：

f_Y(y)=f_X(x)\left|\frac{dx}{dy}\right|

如果只记“乘导数”，就容易乘错方向。可以用一个简单检查：若 $Y=2X$ ，区间长度被拉成两倍，密度高度应减半，因此应乘 $1/2$ ，不是 $2$ 。

漏掉非单调变换的分支

对 $Y=X^2$ ，正的 $y$ 有两个原像。若只取 $x=\sqrt y$ ，密度积分通常会少掉一部分概率。每次遇到绝对值、平方、三角函数、取整、最大最小值，都应先检查原像是否唯一。

忘记支持随变换改变

如果 $X>0$ ， $Y=\log X$ 的支持是整个实数轴；如果 $X\in(0,1)$ ， $Y=X/(1-X)$ 的支持是。支持不是公式旁边的附属说明，它决定密度在哪些地方为零。

在不独立时直接卷积

卷积公式

f_{X+Y}(z)=\int f_X(x)f_Y(z-x)\,dx

需要 $X$ 与 $Y$ 独立。一般情形应写成

f_{X+Y}(z)=\int f_{X,Y}(x,z-x)\,dx

如果题目给的是联合密度、条件分布或相关结构，先判断是否能拆成边缘密度乘积。

只会套公式，不会看事件

最大值和最小值最好从事件理解。 $M_n\le t$ 表示所有样本都不超过 $t$ ； $m_n>t$ 表示所有样本都大于 $t$ 。先写事件，再用独立性拆开，公式就不会混。

练习

练习一

设 $X$ 的密度为

f_X(x)=2x,\quad 0<x<1

令 $Y=X^2$ 。求 $Y$ 的密度。

因为 $Y=X^2$ 在 $0<x<1$ 上严格单调，反函数为 $x=\sqrt y$ ，支持为。由变量变换公式，

练习二

设 $X$ 与 $Y$ 独立，且都服从参数为 $\lambda$ 的指数分布。用卷积求 $Z=X+Y$ 的密度。

当 $z>0$ 时，只有 $0<x<z$ 有贡献：

f_Z(z)=\int_0^z \lambda e^{-\lambda x}\lambda e^{-\lambda(z-x)}\,dx

练习三

设 $X_1,\ldots,X_n$ 独立同分布于 $\operatorname{Uniform}(0,1)$ 。求最大值 $M_n$ 和最小值的密度。

对 $0<t<1$ ，

F_{M_n}(t)=P(M_n\le t)=t^n

小结

随机变量函数的分布问题，本质上是在新旧变量之间搬运概率。离散情形把同一新取值的原像概率相加；连续一维变换要用分布函数或导数因子处理长度变化；非单调变换要把所有原像分支加起来；二维变换用 Jacobian 处理面积变化。

卷积是变量变换的一种重要应用。它研究独立随机变量和的分布，也可以从二维变换和边缘化推导出来。最大值、最小值和顺序统计量则提醒我们，函数可以是加法以外的结构；只要先把事件写清楚，再用独立性和分布函数推进，公式会自然出现。

x = h (y)

x=h(y)

y

y

e^y

x^{2}

=

y

x^2=y

随机变量函数、变量变换与卷积 | 概率论 I | 自在学