连续随机变量与密度函数

前面学习离散随机变量时，一个常见动作是列出每个取值的概率。例如掷骰子的点数可以写成 $P(X=1),P(X=2),\ldots,P(X=6)$ 。连续随机变量不能这样处理。等待时间、测量误差、随机抽取一人的身高，这些量在模型里通常可以落在一段实数区间内，单个精确数值本身不再承载正概率。

连续型模型的基本问题变成：随机变量落在某个区间里的概率是多少？密度函数就是回答这个问题的工具。它本身不是概率表，而是一张“概率在数轴上如何分布”的图。真正的概率来自曲线下面积。

连续随机变量教学图，测量结果流向数轴，密度曲线在区间 [a,b] 下方填充表示区间面积等于概率，并用细竖线标注点概率为 0 — 连续随机变量的概率通过区间上的密度面积累积，单个取值点的概率为 0。

连续随机变量在问区间

如果 $X$ 表示某个电子元件的寿命，问题“ $X$ 是否恰好等于 $1000.000000\ldots$ 小时”通常没有实际意义。测量仪器会四舍五入，真实寿命也不会只在几个指定点上跳动。更自然的问题是：

$X$ 是否在 $900$ 到 $1100$ 小时之间？
$X$ 是否小于保修期 $1000$ 小时？
$X$ 是否落在中间 $50\%$ 的典型区间内？

在本课程里，若随机变量 $X$ 的分布可以由某个非负函数 $f_X$ 通过积分表示，我们称 $X$ 是连续型随机变量，并称 $f_X$ 为 $X$ 的概率密度函数。

连续型不是说现实世界的测量值永远有无限精度，而是说我们选择用连续数轴上的模型描述它。模型关心区间概率，积分给出这些区间概率。

下面的交互把这个想法做成了一个小探测器。调节区间端点时，变化的是曲线下被填充的面积，而不是端点处某一根线的高度。

密度函数是什么

概率密度函数常记为 $f_X(x)$ 或简写为 $f(x)$ 。它需要满足两个基本条件：

f(x) \ge 0

\int_{-\infty}^{\infty} f(x)\,dx = 1

第一个条件说密度不能为负；第二个条件说整条数轴上的总面积必须是 $1$ 。如果 $a \lt b$ ，则区间概率由积分给出：

P(a \le X \le b)=\int_a^b f(x)\,dx

这里的等号端点可以换成开区间。原因会在后面单独说明。

连续随机变量密度函数示意图，用窄矩形表示区间概率约为 f(x)Δx，并说明 f(x) 不是 P(X=x) — 密度函数表示单位长度上的概率密度，区间概率可用窄矩形面积近似；单点概率为 0。

密度的单位也提醒我们不要把它直接当成概率。如果 $X$ 用“分钟”度量，那么 $f(x)$ 的单位是“每分钟”。只有再乘上一小段长度 $\Delta x$ ，才近似得到这一小段区间里的概率：

P(x \lt X \lt x+\Delta x)\approx f(x)\Delta x

密度值可以大于 1。比如 $f(x)=2$ 在 $0 \le x \le 1/2$ 上、其他地方为 $0$ ，总面积仍然是 $1$ 。概率不能超过 1，但密度的高度不是概率。

例题：用密度求区间概率

设 $X$ 的密度函数为

f(x)= \begin{cases} 2x, & 0 \le x \le 1,\\ 0, & \text{其他}. \end{cases}

求 $P(0.2 \le X \le 0.5)$ 。

先检查这是一个合法密度。函数在支撑区间 $[0,1]$ 上非负，并且

\int_0^1 2x\,dx = 1

从密度到分布函数

分布函数仍然是最稳的语言：

F_X(x)=P(X\le x)

如果 $X$ 有密度 $f_X$ ，那么 $F_X(x)$ 就是从左侧一直累积到 $x$ 的面积：

F_X(x)=\int_{-\infty}^{x} f_X(t)\,dt

反过来，在 $F_X$ 可导的点上，密度是分布函数的导数：

f_X(x)=F_X'(x)

连续随机变量中概率密度函数与分布函数关系图，左侧显示密度曲线下到 x 的累积面积 F(x)，右侧显示单调上升到 1 的分布函数曲线。 — 密度函数下从负无穷到 x 的面积等于分布函数 F(x)，CDF 随 x 单调上升并趋近于 1。

下面的交互固定使用一个三角形密度。移动 $x$ 时，左边的阴影面积和右边 CDF 上的点同步变化。这个图也提醒我们：PDF 可以先上升再下降，但 CDF 必须一直不下降。

分位数

连续分布里也常问“中位数”和“分位数”。若 $0\lt p\lt 1$ ，一个 $p$ 分位数 $q_p$ 通常满足

F(q_p)=p

中位数就是 $p=0.5$ 的分位数。用 CDF 找分位数，比盯着 PDF 的峰值更可靠。PDF 的最高点表示局部密度最大，不一定是中位数，也不一定是均值。

归一化：让总面积等于 1

有时题目先给出一个非负函数形状 $g(x)$ ，再要求我们找常数 $c$ ，使 $f(x)=cg(x)$ 成为密度函数。这个步骤叫归一化。

如果

A=\int_{-\infty}^{\infty} g(x)\,dx

并且 $0\lt A\lt \infty$ ，那么应取

c=\frac{1}{A}

这样

\int_{-\infty}^{\infty} c g(x)\,dx=cA=1

归一化常数示意图：上方为未缩放形状 g(x)，面积为 A；下方为缩放后的密度函数 f(x)=g(x)/A，面积为 1，右侧给出 c=1/A 和 f(x)=c g(x)。 — 通过选择归一化常数 c=1/A，将非负形状 g(x) 缩放为总面积等于 1 的密度函数。

这个实验台用数值积分近似面积。调节 $p,q$ 后，同一个非负形状会被不同的常数缩放；只有缩放后的曲线才是概率密度。

例题：求归一化常数

设

g(x)= \begin{cases} x(2-x), & 0\le x\le 2,\\ 0, & \text{其他}. \end{cases}

令 $f(x)=cg(x)$ 。求 $c$ ，并计算 $P(0.5\le X\le 1.5)$ 。

先求未归一化形状的总面积：

A=\int_0^2 x(2-x)\,dx=\int_0^2 (2x-x^2)\,dx

分段密度的处理方式

连续型题目里，密度常常按区间分段给出。处理分段密度时，先画出支撑区间，再看积分区间跨过了哪些分段点。跨段时不能把一个表达式从头用到尾。

分段密度函数读法示意图，显示支撑区间、分段积分和端点不改变概率 — 分段密度函数在 0 到 2 上有非零取值，计算概率时按区间分段积分，端点取值不影响结果。

以前面交互中的三角形密度为例：

f(x)= \begin{cases} x, & 0\le x\le 1,\\ 2-x, & 1\lt x\le 2,\\ 0, & \text{其他}. \end{cases}

它的总面积是两个直角三角形面积之和：

\frac{1}{2}\cdot 1\cdot 1+\frac{1}{2}\cdot 1\cdot 1=1

若要求 $P(0.4\le X\le 1.6)$ ，积分区间跨过分段点 $1$ ，所以要拆开：

P(0.4\le X\le 1.6)=\int_{0.4}^{1}x\,dx+\int_{1}^{1.6}(2-x)\,dx

计算得

\left(\frac{x^2}{2}\right)\Big|_{0.4}^{1} +\left(2x-\frac{x^2}{2}\right)\Big|_{1}^{1.6} =0.42+0.42=0.84

对应的 CDF 也要分段写：

F(x)= \begin{cases} 0, & x\lt 0,\\ \dfrac{x^2}{2}, & 0\le x\le 1,\\ 2x-\dfrac{x^2}{2}-1, & 1\lt x\le 2,\\ 1, & x\gt 2. \end{cases}

分段密度题的稳定做法是：先找支撑区间，再找分段点，最后把概率区间切成不跨段的小积分。

点概率为零与端点

对连续型随机变量，只要概率由密度积分给出，就有

P(X=a)=\int_a^a f(x)\,dx=0

这句话很容易被误读。它不是说 $X=a$ 不可能发生，而是说“恰好等于某个指定实数”这个事件在连续模型中没有面积。许多单点事件各自概率为零，但它们合在一起形成区间后，可以有正概率。

连续型随机变量中四种区间端点写法对应同一密度曲线下相同阴影面积，说明端点是否包含不影响概率。 — 连续型随机变量在端点处的概率为零，因此 (a,b)、[a,b]、(a,b]、[a,b) 的区间概率相同。

于是对 $a\lt b$ ，以下四个概率相同：

P(a\lt X\lt b)=P(a\le X\lt b)=P(a\lt X\le b)=P(a\le X\le b)

点概率为零还有一个小后果：只改动密度函数在有限个点上的取值，不会改变任何区间概率。因为积分只看面积，单点高度没有宽度。

不要把“点概率为零”理解成“每个取值都不能出现”。连续模型抽到某个实际数值时，总会出现一个结果；只是模型不会给任何预先指定的精确点分配正概率。

常见误区

把密度高度当成概率

如果图上 $f(3)=1.2$ ，这不表示 $P(X=3)=1.2$ ，也不表示某个事件概率超过 $1$ 。它只表示在 $3$ 附近单位长度上的概率密度较高。要得到概率，必须给出一段宽度并积分。

忽略支撑区间

密度函数常在某个区间外等于 $0$ 。积分上下限如果伸到支撑区间之外，区间外那部分不贡献面积。计算前先标出“哪里有密度”，能少犯很多边界错误。

用 PDF 的峰值判断中位数

峰值说明哪里最密集，中位数说明 CDF 在哪里达到 $0.5$ 。对不对称密度，这两个位置可能相差很远。

忘记检查总面积

题目给出的函数如果没有总面积 $1$ ，它还不是密度。先归一化，再谈概率。

小结与练习

连续随机变量的核心计算只有一句话：概率是密度曲线下面的面积。CDF 是面积从左到右的累积，PDF 是 CDF 在可导处的斜率。点概率为零，所以区间端点是否包含不影响结果。遇到分段密度，先切分区间；遇到未归一化函数，先把总面积调成 $1$ 。

练习

设

f(x)= \begin{cases} 3x^2, & 0\le x\le 1,\\ 0, & \text{其他}. \end{cases}

计算 $P(0.3\le X\le 0.8)$ 。

这是合法密度，因为 $\int_0^1 3x^2\,dx=1$ 。所求概率为

\int_{0.3}^{0.8}3x^2\,dx=x^3\Big|_{0.3}^{0.8}=0.512-0.027=0.485

设 $g(x)=x$ 在 $0\le x\le 4$ 上，其他地方为 $0$ 。求常数 $c$ ，使 $f(x)=cg(x)$ 成为密度。

先求总面积：

A=\int_0^4 x\,dx=8

所以 $c=1/8$ ，即 $f (x) = x /$ 在上。

设

F(x)= \begin{cases} 0, & x\lt 0,\\ x^3, & 0\le x\le 1,\\ 1, & x\gt 1. \end{cases}

求对应密度 $f(x)$ ，并计算 $P(0.2\le X\le 0.6)$ 。

在 $0\lt x\lt 1$ 上，密度是 CDF 的导数：

f(x)=F'(x)=3x^2

设 $X$ 有本章三角形密度。判断 $P(0\le X\le 1)$ 、 $P(0\lt X\lt 1)$ 、 $P(0\lt X\le 1)$ 是否相同。

三者相同。因为 $X$ 是连续型随机变量， $P(X=0)=P(X=1)=0$ 。这些端点是否被包含，不改变曲线下面积。共同概率为

\int_0^1 x\,dx=\frac{1}{2}

8

f(x)=x/8

连续随机变量与密度函数 | 概率论 I | 自在学