自在学
分类课程智能体订阅
分类课程AI导师价格
课程进度
10 / 11
上一节随机变量与常见分布下一节显著性检验:差异是真的,还是偶然的
自在学

© 2025 - 2026 自在学,保留所有权利。

公网安备湘公网安备43020302000292号 | 湘ICP备2025148919号-1

关于我们隐私政策使用条款

© 2025 自在学,保留所有权利。

公网安备湘公网安备43020302000292号湘ICP备2025148919号-1

数学统计与概率入门从样本推总体:抽样误差与置信区间

从样本推总体:抽样误差与置信区间

某次民调访问了 1000 名选民,结果显示方案 A 的支持率是 52%52\%52%,方案 B 是 48%48\%48%。新闻标题说“A 领先”。可是如果明天换另外 1000 人,A 还一定是 52%52\%52% 吗?

一家工厂从一批 20000 个零件中抽检 400 个,发现 12 个不合格。样本不合格率是 3%3\%3%。这是否说明整批零件的真实不合格率就是 3%3\%3%?

这两个问题都在问同一件事:样本只看见总体的一部分,样本结论会因为“抽到谁”而摇晃。统计推断不是假装这种摇晃不存在,而是把摇晃的大小算出来,再用区间表达不确定性。

从总体中随机抽取样本,并用样本统计量估计总体参数

这一节只讨论最基本的一样本推断:用样本比例估计总体比例,用样本均值估计总体均值。你要抓住三句话:点估计给出一个数,标准误描述这个数会摇多大,置信区间把估计和不确定性一起报出来。


从样本统计量到总体参数

总体参数是我们真正关心但通常看不全的数。样本统计量是从样本中算出来、用来估计总体参数的数。

研究问题总体参数样本统计量
所有选民中支持方案 A 的比例是多少总体比例 ppp样本比例 p^\hat{p}p^​
一批零件的真实不合格率是多少总体比例 ppp样本不合格率 p^\hat{p}p^​
某型号饮料的平均灌装量是多少总体均值 μ\muμ样本均值 xˉ\bar{x}xˉ
学生每天平均屏幕时间是多少总体均值 μ\muμ样本均值 xˉ\bar{x}xˉ

样本比例适合“是/否”“合格/不合格”“支持/不支持”这类变量。如果样本中有 xxx 个成功,样本量是 nnn,则:

p^=xn\hat{p}=\frac{x}{n}p^​=nx​

样本均值适合用数值度量的变量。如果样本数据是 x1,x2,…,xnx_1,x_2,\ldots,x_nx1​,x2​,…,xn​,则:

xˉ=x1+x2+⋯+xnn\bar{x}=\frac{x_1+x_2+\cdots+x_n}{n}xˉ=nx1​+x2​+⋯+xn​​

点估计就是用一个样本统计量估计总体参数。它很有用,但它没有告诉我们“这个估计大概能差多少”。所以,只报 52%52\%52% 或 3%3\%3% 常常不够,还需要说明抽样误差。

民调结果中的点估计和误差范围,展示两个支持率接近时不能草率断定领先稳定

例题:识别参数和统计量

某平台想估计全部活跃用户中“愿意开启新推荐功能”的比例。它随机邀请 1200 名活跃用户试用,其中 684 人选择开启。

先找总体。研究目标是全部活跃用户,所以总体是平台当前所有活跃用户,而不是被邀请的 1200 人。

再找总体参数。题目关心“愿意开启”的真实比例,这个未知比例记作 ppp。

接着找样本统计量。样本中有 684 人开启,样本量是 1200,所以样本比例是:

p^=6841200=0.57\hat{p}=\frac{684}{1200}=0.57p^​=1200684​=0.57

最后说清楚含义。0.570.570.57 是这一次样本给出的点估计,不是总体比例的精确值。换一批用户,样本比例可能是 0.560.560.56、0.580.580.58 或其他附近的数。


抽样误差:样本结论为什么会摇晃

如果抽样过程有随机性,同一个总体中反复抽样,样本统计量一般不会每次一样。样本比例会围绕总体比例上下波动,样本均值也会围绕总体均值上下波动。这种由“只抽了一部分”造成的随机差异,叫抽样误差。

抽样误差不是调查员犯错,也不是样本作假。即使名单完整、随机抽样严格、每个人都如实回答,抽样误差仍然存在。原因很简单:不同样本包含的人或产品不同。

许多样本各自产生一个统计量,下方形成围绕总体真值的抽样分布

抽样分布不是原始数据的分布,而是“很多次抽样得到的统计量”的分布。它回答的是:如果重复抽很多次,p^\hat{p}p^​ 或 xˉ\bar{x}xˉ 会怎样分散?

抽样误差和抽样偏差不是一回事。随机误差会让样本结果在真值附近摇晃;偏差会让样本系统性偏向某个方向。增加样本量通常能减小随机摇晃,但不能自动修正一个偏掉的抽样框或诱导性问卷。

抽样波动的两个直觉

第一,样本量越大,样本统计量通常越稳。掷 10 次硬币可能有 8 次正面,掷 1000 次时正面比例通常会更靠近 0.50.50.5。

第二,比例越接近 0.50.50.5,样本比例越容易摇。若总体比例是 0.980.980.98,大多数人都属于同一类,样本比例空间较窄;若总体比例是 0.50.50.5,两类差不多,样本之间的差异更明显。


标准误:把摇晃程度量出来

标准误是样本统计量的典型抽样波动大小。它和标准差有关,但对象不同:标准差描述个体数据分散;标准误描述样本统计量分散。

对于样本比例,如果总体比例是 ppp,理论标准误是:

SEp^=p(1−p)nSE_{\hat{p}}=\sqrt{\frac{p(1-p)}{n}}SEp^​​=np(1−p)​​

实际做置信区间时,ppp 往往未知,所以常用样本比例 p^\hat{p}p^​ 代替:

SEp^≈p^(1−p^)nSE_{\hat{p}}\approx\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}SEp^​​≈np^​(1−p^​)​​

对于样本均值,如果总体标准差 σ\sigmaσ 已知,理论标准误是:

SExˉ=σnSE_{\bar{x}}=\frac{\sigma}{\sqrt{n}}SExˉ​=n​σ​

现实里 σ\sigmaσ 常常未知,于是用样本标准差 sss 估计:

SExˉ≈snSE_{\bar{x}}\approx\frac{s}{\sqrt{n}}SExˉ​≈n​s​

这些公式里都有 n\sqrt{n}n​。所以样本量变大时,标准误会变小;但不是 nnn 翻倍,误差就减半,而是按平方根变窄。

三种样本量对应的误差线逐渐变短,显示样本量增大时误差范围收窄

例题:样本比例的标准误

一次产品抽检中,从一批零件中随机抽取 400400400 个,发现 121212 个不合格。估计不合格率的标准误。

先计算样本不合格率。样本中不合格数是 121212,样本量是 400400400:

p^=12400=0.03\hat{p}=\frac{12}{400}=0.03p^​=40012​=0.03

用样本比例代入标准误公式:

SEp^≈0.03(1−0.03)400SE_{\hat{p}}\approx\sqrt{\frac{0.03(1-0.03)}{400}}SEp^​​≈4000.03(1−0.03)​​

计算得到:

SEp^≈0.00007275≈0.0085SE_{\hat{p}}\approx\sqrt{0.00007275}\approx0.0085SEp^​​≈0.00007275​≈0.0085

用百分数解释。0.00850.00850.0085 大约是 0.850.850.85 个百分点,表示这类样本不合格率的典型抽样波动约为 0.850.850.85 个百分点。


置信区间:用一段范围表达估计

置信区间的基本形状是:

点估计±临界值×标准误\text{点估计}\pm \text{临界值}\times\text{标准误}点估计±临界值×标准误

中间的乘积叫误差范围:

误差范围=临界值×标准误\text{误差范围}=\text{临界值}\times\text{标准误}误差范围=临界值×标准误

在入门课程里,样本量足够大时,比例的 95% 置信区间常用 1.961.961.96 作为临界值。为了心算,也常近似为 222。

p^±1.96p^(1−p^)n\hat{p}\pm1.96\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}p^​±1.96np^​(1−p^​)​​

样本均值的置信区间通常使用 ttt 临界值,因为总体标准差一般未知:

xˉ±t∗sn\bar{x}\pm t^*\frac{s}{\sqrt{n}}xˉ±t∗n​s​

样本量较大时,95% 置信区间里的 t∗t^*t∗ 会接近 1.961.961.96。样本量较小时,t∗t^*t∗ 通常更大,区间会更宽。

重复抽样得到多条置信区间,大多数覆盖总体真值,少数没有覆盖

95% 置信水平说的是方法的长期表现:如果用同一种抽样和计算方法重复很多次,大约 95% 的区间会覆盖总体真值。对已经算出的某一个区间,真值要么在里面,要么不在里面。

例题:民调支持率的 95% 置信区间

某民调随机访问 100010001000 名选民,其中 520520520 人支持方案 A。用近似方法给出方案 A 支持率的 95% 置信区间。

先计算样本比例:

p^=5201000=0.52\hat{p}=\frac{520}{1000}=0.52p^​=1000520​=0.52

检查成功和失败数。支持人数 520520520,不支持或未支持人数 480480480,都远大于 10,所以用正态近似较合适。

计算标准误:

SEp^≈0.52×0.481000≈0.0158SE_{\hat{p}}\approx\sqrt{\frac{0.52\times0.48}{1000}}\approx0.0158SEp^​​≈10000.52×0.48​​≈0.0158

计算误差范围:

1.96×0.0158≈0.0311.96\times0.0158\approx0.0311.96×0.0158≈0.031

写出区间:

0.52±0.031=(0.489, 0.551)0.52\pm0.031=(0.489,\ 0.551)0.52±0.031=(0.489, 0.551)

用百分数说,方案 A 的支持率估计约为 48.9%48.9\%48.9% 到 55.1%55.1\%55.1%。

这个区间说明 52%52\%52% 这个点估计有抽样不确定性。如果方案 B 是 48%48\%48%,不能只看 52>4852>4852>48 就断言 A 已经稳定领先。比较两方差距时,差值本身也有抽样误差,差值的误差范围通常比单个支持率的误差范围更大。

例题:平均灌装量的 95% 置信区间

某饮料厂随机抽取 363636 瓶饮料,样本平均灌装量为 502.4502.4502.4 ml,样本标准差为 6.06.06.0 ml。估计该生产线的平均灌装量。假设可用 t∗≈2.03t^*\approx2.03t∗≈2.03。

题目关心的是总体均值 μ\muμ,点估计是样本均值 xˉ=502.4\bar{x}=502.4xˉ=502.4。

计算样本均值的标准误:

SExˉ≈sn=6.036=1.0SE_{\bar{x}}\approx\frac{s}{\sqrt{n}}=\frac{6.0}{\sqrt{36}}=1.0SExˉ​≈n​s​=36​6.0​=1.0

计算误差范围:

2.03×1.0=2.032.03\times1.0=2.032.03×1.0=2.03

写出置信区间:

502.4±2.03=(500.37, 504.43)502.4\pm2.03=(500.37,\ 504.43)502.4±2.03=(500.37, 504.43)

用情境解释。我们可以说:根据这次抽样,该生产线的平均灌装量大约在 500.37500.37500.37 ml 到 504.43504.43504.43 ml 之间。


民调和抽检:区间比单点更诚实

民调中的“误差范围”常常就是置信区间半宽。若某候选人的支持率是 48%±348\%\pm348%±3 个百分点,意思不是支持率会在明天自动落入这个范围,而是这次样本给出的估计精度大约只有这么细。小于误差范围的差距,需要谨慎解读。

还有几个细节很容易被忽略。第一,整体样本的误差范围不等于每个子群体的误差范围。1000 人样本中如果只有 160 名年轻受访者,年轻人子样本的误差范围会明显更宽。第二,民调误差范围主要描述抽样误差,不自动包括问题措辞、未回应、加权、可能选民模型等误差。第三,两个民调之间从 52%52\%52% 到 49%49\%49% 的变化,可能只是抽样波动,也可能是真变化,需要看更多连续结果。

抽检员从一批产品中随机抽样检查,用样本不合格率估计批次不合格率

产品抽检也一样。抽到 400400400 个零件,其中 121212 个不合格,点估计是 3%3\%3%。用 95% 近似区间计算:

0.03±1.960.03×0.974000.03\pm1.96\sqrt{\frac{0.03\times0.97}{400}}0.03±1.964000.03×0.97​​

误差范围约为:

1.96×0.0085≈0.01671.96\times0.0085\approx0.01671.96×0.0085≈0.0167

所以区间约为:

(0.013, 0.047)(0.013,\ 0.047)(0.013, 0.047)

也就是 1.3%1.3\%1.3% 到 4.7%4.7\%4.7%。这个范围比单独的 3%3\%3% 更适合拿去讨论风险。如果合同规定不合格率必须低于 2%2\%2%,这次抽检结果就不能让人完全放心,因为区间中有不少值高于 2%2\%2%。

区间不是为了让结论变含糊,而是为了让结论和证据强度匹配。样本给出的信息强,区间会窄;样本给出的信息弱,区间会宽。


常见误区辨析

误区一:样本比例就是总体比例

样本比例是估计值,不是总体真值。样本越大,估计通常越稳,但只要不是普查,就仍有抽样波动。

误区二:95% 置信区间表示这个区间有 95% 概率含真值

在常见的频率学派表述中,总体参数是固定未知数;随机的是抽样过程和由样本算出的区间。一个具体区间算出来以后,它是否覆盖真值已经是事实,只是我们不知道。

误区三:置信区间越宽越差

宽区间不是“算坏了”的同义词。它可能诚实反映了样本量小、数据分散或置信水平高。真正危险的是证据很弱却报得很精确。

误区四:样本量占总体比例越高,结果一定越准

很多大总体问题里,关键常常是样本的绝对数量和抽样方式,而不是样本占总体的百分比。对几千万选民做随机样本,1000 人已经能给出有用估计;但如果样本来自自愿投票,再多也可能偏。

误区五:误差范围包括所有错误

常规误差范围主要量化随机抽样误差。抽样框漏掉某些人、问题带引导性、受访者不愿回答、测量仪器校准错误,这些都可能造成非抽样误差,不能靠公式自动消失。

不要把“区间里有我要的值”当成“已经证明我要的值正确”。置信区间给的是与样本相容的一段范围,它帮助我们判断证据强弱,不替代研究设计和背景判断。


练习

练习 1:样本比例与置信区间

某学校随机调查 500500500 名学生,发现 315315315 人每周至少运动三次。请计算样本比例,并用 1.961.961.96 近似给出 95% 置信区间。

样本比例为:

p^=315500=0.63\hat{p}=\frac{315}{500}=0.63p^​=500315​=0.63

标准误为:

SEp^≈0.63×0.37500≈0.0216SE_{\hat{p}}\approx\sqrt{\frac{0.63\times0.37}{500}}\approx0.0216SEp^​​≈5000.63×0.37​​≈0.0216

误差范围为:

1.96×0.0216≈0.0421.96\times0.0216\approx0.0421.96×0.0216≈0.042

所以 95% 置信区间约为:

0.63±0.042=(0.588, 0.672)0.63\pm0.042=(0.588,\ 0.672)0.63±0.042=(0.588, 0.672)

也就是约 58.8%58.8\%58.8% 到 67.2%67.2\%67.2%。

练习 2:样本均值的标准误

某平台抽取 646464 名用户,记录他们一天使用某功能的次数。样本均值为 18.518.518.5 次,样本标准差为 888 次。请计算样本均值的标准误,并用 t∗≈2.00t^*\approx2.00t∗≈2.00 给出近似 95% 置信区间。

样本均值的标准误为:

SExˉ≈sn=864=1SE_{\bar{x}}\approx\frac{s}{\sqrt{n}}=\frac{8}{\sqrt{64}}=1SExˉ​≈n​s​=64​8​=1

误差范围为:

2.00×1=2.002.00\times1=2.002.00×1=2.00

置信区间为:

18.5±2.0=(16.5, 20.5)18.5\pm2.0=(16.5,\ 20.5)18.5±2.0=(16.5, 20.5)

可以解释为:根据这次抽样,全部同类用户一天使用该功能的平均次数大约在 16.516.516.5 到 20.520.520.5 次之间。

练习 3:样本量如何影响误差范围

假设一个比例问题中,样本比例接近 0.500.500.50。样本量从 400400400 增加到 160016001600,95% 置信区间的误差范围大约会怎样变化?

比例标准误近似为:

SEp^≈p^(1−p^)nSE_{\hat{p}}\approx\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}SEp^​​≈np^​(1−p^​)​​

当 p^\hat{p}p^​ 接近 0.500.500.50 时,分子基本不变,标准误主要按 1/n1/\sqrt{n}1/n​ 变化。样本量从 400400400 到 160016001600,变为原来的 444 倍,因此标准误和误差范围大约变为原来的:

14=12\frac{1}{\sqrt{4}}=\frac{1}{2}4​1​=21​

也就是误差范围大约减半。注意,这不是因为样本量增加了 120012001200,而是因为样本量变成了 444 倍。

练习 4:判断民调说法

某民调显示甲候选人支持率 51%51\%51%,乙候选人支持率 47%47\%47%,报告给出的单个支持率误差范围是 ±3\pm3±3 个百分点。有人说:“甲领先 4 个百分点,超过 3 个百分点,所以甲已经稳胜。”这句话哪里需要谨慎?

需要谨慎的地方有两个。第一,单个支持率的误差范围不是两人差距的误差范围;差距的误差范围通常更大。第二,民调误差范围主要描述抽样误差,不包括所有非抽样误差。甲领先 4 个百分点说明样本中甲较高,但不能只凭“4 大于 3”就断定稳胜。更稳妥的做法是看差距的置信区间、多个民调的趋势和调查方法。

练习 5:抽检结论

某批产品抽检 100100100 件,发现 000 件不合格。有人说:“样本不合格率是 0%0\%0%,所以整批产品没有不合格品。”这句话为什么不对?

抽检没有发现不合格品,只能说明这 100100100 件样本中没有不合格品,不能证明整批产品的不合格率就是 000。如果真实不合格率很低,随机抽 100 件没有抽到不合格品是可能的。样本量、抽样方式和可接受风险都要一起考虑。这里尤其不能用普通正态近似公式机械计算,因为成功或失败数太少,不满足至少若干个成功和失败的近似条件。

  • 从样本统计量到总体参数
    • 例题:识别参数和统计量
  • 抽样误差:样本结论为什么会摇晃
    • 抽样波动的两个直觉
  • 标准误:把摇晃程度量出来
    • 例题:样本比例的标准误
  • 置信区间:用一段范围表达估计
    • 例题:民调支持率的 95% 置信区间
    • 例题:平均灌装量的 95% 置信区间
  • 民调和抽检:区间比单点更诚实
  • 常见误区辨析
    • 误区一:样本比例就是总体比例
    • 误区二:95% 置信区间表示这个区间有 95% 概率含真值
    • 误区三:置信区间越宽越差
    • 误区四:样本量占总体比例越高,结果一定越准
    • 误区五:误差范围包括所有错误
  • 练习
    • 练习 1:样本比例与置信区间
    • 练习 2:样本均值的标准误
    • 练习 3:样本量如何影响误差范围
    • 练习 4:判断民调说法
    • 练习 5:抽检结论

目录

  • 从样本统计量到总体参数
    • 例题:识别参数和统计量
  • 抽样误差:样本结论为什么会摇晃
    • 抽样波动的两个直觉
  • 标准误:把摇晃程度量出来
    • 例题:样本比例的标准误
  • 置信区间:用一段范围表达估计
    • 例题:民调支持率的 95% 置信区间
    • 例题:平均灌装量的 95% 置信区间
  • 民调和抽检:区间比单点更诚实
  • 常见误区辨析
    • 误区一:样本比例就是总体比例
    • 误区二:95% 置信区间表示这个区间有 95% 概率含真值
    • 误区三:置信区间越宽越差
    • 误区四:样本量占总体比例越高,结果一定越准
    • 误区五:误差范围包括所有错误
  • 练习
    • 练习 1:样本比例与置信区间
    • 练习 2:样本均值的标准误
    • 练习 3:样本量如何影响误差范围
    • 练习 4:判断民调说法
    • 练习 5:抽检结论