常见连续分布：均匀、指数、正态、Gamma 与 Beta

上一章把连续随机变量的基本语言搭好了：密度不是概率本身，区间概率来自曲线下面积。本章开始把这些语言用到几类反复出现的模型上。

这五个分布族不应只靠公式记忆。更可靠的入口是先问三个问题：随机变量能取哪些值，随机性来自什么机制，参数改变时密度形状怎样变化。回答清楚这三件事，公式通常就有了位置。

五类常见连续分布对比信息图，展示均匀、指数、正态、Gamma 与 Beta 分布的支持集、曲线形状和典型建模场景。 — 常见连续分布的支持集、形状与建模场景总览。

先看分布族的角色

连续分布的参数有两层含义。第一层是计算含义，例如密度函数、均值和方差怎样由参数决定；第二层是建模含义，例如参数代表区间端点、平均等待率、中心位置、尺度大小，还是比例证据的强弱。

分布族	取值范围	最常见的问题
均匀分布	有限区间	只知道范围，区间内没有偏好
指数分布	非负半轴	等待下一次事件到来
正态分布	全实轴	测量误差、自然波动、许多小影响的叠加
Gamma 分布	非负半轴	多段等待时间之和、正的连续量
Beta 分布	$[0,1]$	比例、概率、成功率等有界量

选分布时先看支持集。考试和建模中最常见的错误之一，是把只能为正的等待时间套成正态分布，或把比例数据套成无界分布。密度曲线长得像只是线索，变量能不能取那些值才是底线。

均匀分布：只知道范围时的等密度

如果 $X$ 在区间 $[a,b]$ 上均匀分布，记作 $X \sim U(a,b)$ 。它的密度在区间内保持常数，在区间外为 $0$ ：

f_X(x)= \begin{cases} \dfrac{1}{b-a}, & a\le x\le b,\\ 0, & \text{其他}. \end{cases}

整个矩形面积必须为 $1$ ，所以高度只能是 $1/(b-a)$ 。因此均匀分布的区间概率就是长度比例：

P(c\le X\le d)=\frac{d-c}{b-a},\qquad a\le c\le d\le b.

均匀分布的均值和方差是

E(X)=\frac{a+b}{2},\qquad \operatorname{Var}(X)=\frac{(b-a)^2}{12}.

连续均匀分布在区间 [a,b] 上的等高密度矩形，并用色块标出子区间 [c,d] 的概率面积。 — 连续均匀分布的区间概率等于密度矩形下对应子区间的面积，即 $P(c\le X\le d)=(d-c)/(b-a)$ 。

例如，一个同学会在 8:00 到 9:00 之间随机到达教室，且没有理由认为哪一分钟更常见。令 $X$ 表示 8:00 后到达的分钟数，则 $X\sim U(0,60)$ 。在 8:10 到 8:25 之间到达的概率是

P(10\le X\le 25)=\frac{25-10}{60}=0.25.

连续均匀分布里， $P(X=10)=0$ 。所以 $P(10\le X\le 25)$ 、 $P(10<X<25)$ 和的值相同。端点是否包含通常不改变连续型区间概率。

指数分布：等待下一次到达

指数分布常用于描述“从现在开始等到下一次事件”的时间。若 $X\sim \operatorname{Exp}(\lambda)$ ，这里使用 rate 参数 $\lambda>0$ ，密度为

f_X(x)= \begin{cases} \lambda e^{-\lambda x}, & x\ge 0,\\ 0, & x<0. \end{cases}

它的分布函数和生存函数分别是

F_X(x)=1-e^{-\lambda x},\qquad S_X(x)=P(X>x)=e^{-\lambda x},\qquad x\ge 0.

均值和方差是

E(X)=\frac{1}{\lambda},\qquad \operatorname{Var}(X)=\frac{1}{\lambda^2}.

$\lambda$ 越大，事件越频繁，等待时间越短。指数密度在 $0$ 附近最高，然后单调下降，这和“短等待比长等待更常见”的直觉一致。

指数分布等待时间曲线与无记忆性示意图，左侧为单调下降的密度曲线，右侧比较已等 s 后再等 t 与重新开始再等 t 的相同未来区间。 — 指数分布中短等待更常见，长尾表示偶尔等待很久；无记忆性说明已等待 $s$ 后，未来再等 $t$ 的概率与重新开始等待 $t$ 相同。

指数分布最特别的性质是无记忆性：

P(X>s+t\mid X>s)=P(X>t),\qquad s,t\ge 0.

用生存函数验证这件事很直接：

P(X>s+t\mid X>s)=\frac{P(X>s+t)}{P(X>s)} =\frac{e^{-\lambda(s+t)}}{e^{-\lambda s}} =e^{-\lambda t} =P(X>t).

假设客服中心平均每 8 分钟收到一次电话，并把下一通电话到来的等待时间近似为指数分布。此时 $\lambda=1/8$ 。从现在开始等超过 10 分钟的概率是

P(X>10)=e^{-10/8}\approx 0.2865.

如果已经等了 5 分钟还没有电话，再等超过 10 分钟的条件概率仍然是 $e^{-10/8}$ 。这个结论很强，但也很挑剔：它依赖“到达率稳定、过去没有提供关于未来率变化的信息”这类建模假设。

正态分布：位置、尺度与标准化

正态分布用于描述围绕中心波动的连续量。若 $X\sim N(\mu,\sigma^2)$ ，其中 $\sigma>0$ ，密度为

f_X(x)=\frac{1}{\sigma\sqrt{2\pi}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right),\qquad -\infty<x<\infty.

参数 $\mu$ 控制中心位置， $\sigma$ 控制曲线宽窄：

E(X)=\mu,\qquad \operatorname{Var}(X)=\sigma^2.

正态分布的概率通常通过标准化计算。令

Z=\frac{X-\mu}{\sigma}.

则 $Z\sim N(0,1)$ 。于是

P(l\le X\le r)=P\left(\frac{l-\mu}{\sigma}\le Z\le \frac{r-\mu}{\sigma}\right).

正态分布钟形曲线，标出 μ、μ±σ、μ±2σ、μ±3σ，以及约 68%、约 95%、约 99.7% 的经验法则，并展示 Z=(X-μ)/σ 标准化过程。 — 正态分布的中心由 $\mu$ 决定，宽窄由 $\sigma$ 决定；标准化后可查表或计算概率。

例题：某测量误差近似服从 $N(72,6^2)$ 。求落在 $66$ 到 $84$ 之间的概率。

先把端点标准化。左端点给出 $z_1=(66-72)/6=-1$ ，右端点给出 $z_{2} = (84 - 72$ 。

钟形曲线不自动等于正态分布。正态模型还隐含对称、尾部下降方式和全实轴支持等假设。身高、测量误差、平均值近似常会用正态，但等待时间、收入、比例这类变量往往需要先看取值范围和偏态。

Gamma 分布：把若干段等待时间相加

Gamma 分布也定义在非负半轴上。它比指数分布更灵活，可以描述从“下一次到达”扩展到“等到第若干次到达”的总等待时间。若 $X\sim \operatorname{Gamma}(\alpha,\lambda)$ ，这里使用形状参数 $\alpha>0$ 和 rate 参数 $\lambda>0$ ，密度为

f_X(x)= \begin{cases} \dfrac{\lambda^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\lambda x}, & x>0,\\ 0, & x\le 0. \end{cases}

其中 Gamma 函数满足 $\Gamma(n)=(n-1)!$ ，当 $n$ 是正整数时把阶乘自然延伸到了密度公式里。Gamma 分布的均值和方差是

E(X)=\frac{\alpha}{\lambda},\qquad \operatorname{Var}(X)=\frac{\alpha}{\lambda^2}.

当 $\alpha=1$ 时，Gamma 分布就是指数分布。当 $\alpha=k$ 是正整数时，它也称为 Erlang 分布，可解释为 $k$ 个独立指数等待时间之和。

Gamma 分布教学信息图：左侧用时间轴展示多个独立指数等待时间相加形成总等待时间，右侧展示不同 alpha 下 Gamma 密度曲线形状变化。 — Gamma 分布可理解为多次独立到达的累计等待时间；形状参数控制峰的位置和偏度，rate $\lambda$ 控制时间尺度。

例题：某系统事件按每小时平均 3 次的稳定率到达。令 $T$ 表示等到第 4 次事件到达所需时间。求 $T$ 不超过 1 小时的概率。

等到第 4 次事件不超过 1 小时，等价于 1 小时内事件数至少为 4 次。

若到达过程可近似为 Poisson 过程，则 1 小时内事件数 $N(1)\sim \operatorname{Poisson}(3)$ ，而 $T\sim \operatorname{Gamma}(4,3)$ 。

这里的计算展示了 Gamma 与 Poisson 的联系：一个看等待时间，一个看固定时间内的到达次数。

Beta 分布：专为比例而生

Beta 分布定义在 $[0,1]$ 上，适合描述比例、概率、命中率、转化率这类有边界的量。若 $X\sim \operatorname{Beta}(\alpha,\beta)$ ，其中 $\alpha,\beta>0$ ，密度为

f_X(x)= \begin{cases} \dfrac{1}{B(\alpha,\beta)}x^{\alpha-1}(1-x)^{\beta-1}, & 0<x<1,\\ 0, & \text{其他}. \end{cases}

归一化常数 $B(\alpha,\beta)$ 使密度曲线下面积等于 $1$ 。它和 Gamma 函数的关系是

B(\alpha,\beta)=\frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)}.

Beta 分布的均值和方差是

E(X)=\frac{\alpha}{\alpha+\beta},\qquad \operatorname{Var}(X)=\frac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)}.

同一坐标区间内展示 Beta 分布的 U 形、靠近 1、靠近 0、中间单峰和均匀特例密度曲线。 — Beta 分布在 $0$ 到 $1$ 上可以表达多种比例形状， $\alpha$ 与 $\beta$ 可理解为两侧证据。

参数可以这样理解： $\alpha$ 倾向于把质量推向 $1$ ， $\beta$ 倾向于把质量推向 $0$ ，两者总量越大，分布通常越集中。这个解释在后续学习 Bayesian 模型时会变得更正式；在本章，只需把它当作比例建模的形状直觉。

几个典型形状值得记住：

参数关系	曲线直觉
$\alpha=\beta=1$	均匀分布 $U(0,1)$
$\alpha>1,\beta>1$

例子：若某产品转化率 $p$ 的不确定性用 $\operatorname{Beta}(8,2)$ 表示，则

E(p)=\frac{8}{8+2}=0.8.

这不是说转化率一定等于 $0.8$ ，而是说当前模型把概率质量放在较高比例附近，并且仍保留不确定性。

分布之间的联系与选型

这五个分布族之间有不少直接关系。把这些关系连起来，比单独背五张公式表更稳。

五种连续分布的关系图，展示均匀、指数、正态、Gamma 与 Beta 分布之间的特例关系、等待时间求和关系和选型线索。 — 常见连续分布之间的联系与选型线索。

看到的场景	优先考虑
只知道数值在 $[a,b]$ 内，区间内没有明显偏好	$U(a,b)$
等待下一次独立到达，且到达率近似稳定	$\operatorname{Exp}(\lambda)$
许多小扰动叠加，围绕中心对称波动	$N(\mu,\sigma^2)$

一个实用判断顺序是：先看取值范围，再看生成机制，最后看形状。范围错了，模型通常已经不合适；机制对了，参数才有解释；形状用来检查模型是否和数据的粗略特征一致。

综合例题：从场景到分布

下面的例题不急着计算，重点是把现实描述翻译成分布语言。

“一辆校车会在 7:30 到 7:50 间任意时刻到站，且没有更多信息。”若令 $X$ 表示到站时间相对 7:30 的分钟数，可以先用 $U(0,20)$ 。这里的核心线索是有限区间和区间内无偏好。

“一个传感器平均每 5 分钟收到一次独立信号，问下一次信号还要等多久。”可以用 $\operatorname{Exp}(1/5)$ 作为第一近似。这里的核心线索是等待下一次到达。

练习

设 $X\sim U(2,10)$ 。求 $P(5<X<7)$ 、 $E(X)$ 和 $Var ($ 。

区间概率是长度比例：

P(5<X<7)=\frac{7-5}{10-2}=\frac14.

某等待时间 $X$ 服从均值为 4 分钟的指数分布。求 $P(X>6)$ 。若已经等了 3 分钟，继续再等超过 6 分钟的条件概率是多少？

指数分布的均值是 $1/\lambda$ ，所以 $\lambda=1/4$ 。

P(X>6)=e^{-6/4}=e^{-1.5}\approx 0.2231.

设 $X\sim N(100,15^2)$ 。用标准正态分布函数 $\Phi$ 表示并近似计算 $P(85<X<130)$ 。

标准化端点：

\frac{85-100}{15}=-1,\qquad \frac{130-100}{15}=2.

设 $T\sim \operatorname{Gamma}(3,2)$ ，其中第二个参数是 rate。把它解释为等待第 3 次到达的时间，求 $P(T\le 1)$ 。

若 $T$ 是 rate 为 $2$ 的 Poisson 过程中等待第 3 次到达的时间，则 $T\le 1$ 等价于 1 个时间单位内至少到达 3 次。令 $N(1)\sim \operatorname{Poisson}(2)$ ，则

P (T \leq 1) = P (N (

设 $P\sim \operatorname{Beta}(6,4)$ 。求 $E(P)$ 和 $\operatorname{Var}(P)$ ，并用一句话解释这个模型偏向哪一侧。

均值为

E(P)=\frac{6}{6+4}=0.6.

方差为

\operatorname{Var}(P)=\frac{6\cdot 4}{(6+4)^2(6+4+1)}=\frac{24}{1100}\approx 0.0218.

)

/

6

=

2

z_2=(84-72)/6=2

X

)

\operatorname{Var}(X)

1

)

\geq

3

)

=

1

-

e^{- 2}

(1 + 2 + \frac{2^{2}}{2!})

=

1

-

5

e^{- 2}

\approx

0.3233.

P(T\le 1)=P(N(1)\ge 3)=1-e^{-2}\left(1+2+\frac{2^2}{2!}\right)=1-5e^{-2}\approx 0.3233.

常见连续分布：均匀、指数、正态、Gamma 与 Beta | 概率论 I | 自在学