最小二乘估计量
5 / 16
函数形式与结构变化
自在学
首页课程创意工坊价格
首页课程创意工坊价格
经济学计量经济学假设检验与模型选择

假设检验与模型选择

welearn-20870936.webp

在前面的学习中,我们掌握了如何使用最小二乘法估计回归模型的参数,以及如何进行预测。现在,我们要学习线性回归模型的第三个重要用途:假设检验。这标志着我们从简单的参数估计进入了更深层次的科学推断领域。

如果你是中国人民银行的经济学家,正在研究货币政策对经济增长的影响,建立了一个包含利率、通胀率、GDP增长率等变量的回归模型。现在面临的关键问题不再是“这些变量的系数是多少”,而是“利率变化真的对经济增长有显著影响吗?”、“通胀率的影响是否可以忽略?”、“这个模型是否比其他竞争模型更适合解释中国的经济现实?”

假设检验的核心价值在于:它为我们提供了一套科学的方法来评估理论假说是否得到数据的支持,从而将经济学研究从主观猜测转向客观验证。

假设检验不仅仅是统计技巧,更是经济学研究的基本方法论。它帮助我们回答以下关键问题:

  • 某个经济变量是否真的重要?
  • 两个竞争理论哪个更符合现实?
  • 我们的模型设定是否正确?
  • 如何在多个候选模型中做出选择?

假设检验的基本思想

从艺术品拍卖说起

让我们先通过一个有趣的案例来直观理解假设检验的思维过程。假设我们研究艺术品拍卖市场,想知道绘画的尺寸 (size\text{size}size) 是否会影响成交价格。我们设立如下回归模型:

ln⁡(价格)=β1+β2ln⁡(尺寸)+β3长宽比+ε\ln(\text{价格}) = \beta_1 + \beta_2 \ln(\text{尺寸}) + \beta_3 \text{长宽比} + \varepsilonln(价格)=β1​+β2​ln(尺寸)+β3​长宽比+ε

直觉告诉我们,也许尺寸会有影响,但细想后发现,世界著名画作如《蒙娜丽莎》尺寸仅为 30×2130 \times 2130×21 英寸,达利的《记忆的永恒》更只有 9.5×139.5 \times 139.5×13 英寸。尺寸究竟重不重要?要不要“凭感觉”就下结论?这正是统计推断要回答的问题。

于是,我们设立如下假设检验问题:

  • 原假设(H₀):β2=0\beta_2 = 0β2​=0(尺寸对价格无显著影响)
  • 备择假设(H₁):β2≠0\beta_2 \neq 0β2​=0(尺寸有显著影响)

即:

H0:β2=0H1:β2≠0\begin{aligned} H_0: &\quad \beta_2 = 0 \\ H_1: &\quad \beta_2 \neq 0 \end{aligned}H0​:H1​:​β2​=0β2​=0​

假设检验的核心逻辑

假设检验实际遵循着一套严密且简明的步骤:

提出假设:明确研究问题、设立 H0H_0H0​ 与 H1H_1H1​。

收集证据:利用样本数据对模型进行参数估计,得到估计值与标准误差。

评估证据:据此计算检验统计量(如 ttt、FFF 或 WWW)。

  • 例如,单个线性约束下用 ttt 统计量: t=β^2−0se(β^2)t = \frac{\hat{\beta}_2 - 0}{\text{se}(\hat{\beta}_2)}t=se(β^​2​)β^​2​−0​

做出判断:将统计量与临界值比较,若落入拒绝域,则拒绝 H0H_0H0​。

上图展示了双侧假设检验的概率密度和拒绝域。以常见的 5%5\%5% 显著性水平为例,左右拒绝域分别对应 α/2=2.5%\alpha/2 = 2.5\%α/2=2.5%,其临界值为 −1.96-1.96−1.96 和 +1.96+1.96+1.96。若观测到的 ttt 统计量落在红色拒绝域 (∣t∣>1.96)(|t| > 1.96)(∣t∣>1.96),我们就有理由怀疑 H0H_0H0​ 的正确性,从而“拒绝原假设”。

两类错误与检验的权衡

在假设检验过程中,无法避免犯两种类型的错误。理解这两类错误对于科学决策至关重要:

错误类型现实状况检验决策概率经济学后果
第一类错误(Type I)H0H_0H0​ 为真错误拒绝 H0H_0H0​α\alphaα采纳错误政策,导致资源浪费
第二类错误(Type II)H0H_0H0​ 为假错误接受 H0H_0H0​β\betaβ错失有效政策,产生机会成本
正确决策H0H_0H0​ 为真正确接受 H0H_0H0​1−α1 - \alpha1−α维持现状,避免不必要变革
正确决策H0H_0H0​ 为假正确拒绝 H0H_0H0​1−β1 - \beta1−β(功效)正确采纳政策,获得收益

检验功效(power)即 1−β1-\beta1−β,代表在 H0H_0H0​ 错误时,正确识别出错误并作出决策的能力。在政策分析、医疗试验等领域,高功效是确保科学决策的重要保障。

假设检验的艺术在于平衡这两种错误:降低第一类错误(α\alphaα,即“冤枉好人”)的风险,通常会提高第二类错误(β\betaβ,即“放过坏人”)的概率。选择合适的显著性水平 α\alphaα(如 5% 或 1%)是研究者需要根据实际问题和后果权衡做出的判断。

例如,在药物审批中,第一类错误风险(α\alphaα)控制得非常低,以防止将无效或有害新药批准上市。但这样做会提高将有效药物错杀(第二类错误)的概率。

嵌套模型与非嵌套模型

在比较不同经济模型时,有必要区分“嵌套模型”和“非嵌套模型”:

嵌套模型:一个模型是另一个更一般模型的特例。更具体地说,模型 M0M_0M0​ 在某些参数取特定值时,能变为模型 M1M_1M1​。

考虑如下投资行为的两个回归模型:

  • 无限制模型: ln⁡(投资)=β1+β2⋅利率+β3⋅通胀率+β4ln⁡(GDP)+β5⋅时间趋势+ε\ln(\text{投资}) = \beta_1 + \beta_2 \cdot \text{利率} + \beta_3 \cdot \text{通胀率} + \beta_4 \ln(\text{GDP}) + \beta_5 \cdot \text{时间趋势} + \varepsilonln(投资)=β1​+β2​⋅利率+β3​⋅通胀率+β4​ln(GDP)+β5​⋅时间趋势+ε
  • 限制模型: ln⁡(投资)=β1+β2(利率−通胀率)+β4ln⁡(GDP)+β5⋅时间趋势+ε\ln(\text{投资}) = \beta_1 + \beta_2 (\text{利率} - \text{通胀率}) + \beta_4 \ln(\text{GDP}) + \beta_5 \cdot \text{时间趋势} + \varepsilonln(投资)=β1​+β2​(利率−通胀率)+β4​ln(GDP)+β5​⋅时间趋势+ε

这实际上对 β2,β3\beta_2, \beta_3β2​,β3​ 加入了约束:β2+β3=0\beta_2 + \beta_3 = 0β2​+β3​=0,即投资者只考虑实际利率,而忽略名义利率和通胀的分离影响。

非嵌套模型:两个模型都不能通过参数约束变成对方。例如,

  • 模型A: 只包含通胀率对投资的解释
  • 模型B: 只包含名义利率对投资的解释

它们的变量选择完全不同,互为平行而非可嵌套。

嵌套模型比较时,通常采用 FFF 检验或似然比检验等经典假设检验方法。而非嵌套模型则需要用 J 检验、Vuong 检验或信息准则(如 AIC/BIC)等方法辅助判断哪一个更优。


假设检验方法论

Neyman-Pearson 框架

现代假设检验的理论基础是 Neyman-Pearson 框架。这个方法论强调在进行检验前,严格预先设定各项规则,根据客观的数据和标准来做出机械式决策,而不是事后主观判断。

基本步骤如下:

设定假设:首先提出原假设 H0H_0H0​(通常是“无效/无作用/无差异”)和备择假设 H1H_1H1​(存在某种作用或差异)。
选择显著性水平:指定试验中可容忍的第一类错误概率 α\alphaα,常见取值有 0.050.050.05 或 0.010.010.01。这一过程体现了对错误风险的量化控制。
确定检验统计量:依据样本数据设计合适的检验统计量,常见如 ttt 统计量、FFF 统计量等。
确定拒绝域:计算当 H0H_0H0​ 成立时检验统计量的概率分布,并据此得出拒绝域。例如,对于双侧检验,拒绝域可能为 ∣T∣>t1−α/2|T| > t_{1-\alpha/2}∣T∣>t1−α/2​。
做出决策:采集样本,计算实际的检验统计量值。如果统计量落入拒绝域,则拒绝 H0H_0H0​,否则“不拒绝” H0H_0H0​。

常用公式举例(双侧 ttt 检验):

t=β^k−β0kse(β^k)t = \frac{ \hat{\beta}_k - \beta_{0k} }{ \text{se}(\hat{\beta}_k) }t=se(β^​k​)β^​k​−β0k​​

拒绝域通常形式为:

∣t∣>t1−α/2, df|t| > t_{1-\alpha/2,\, df}∣t∣>t1−α/2,df​

这一系列机械的步骤确保了检验的结果具有客观性和可重复性。

检验的一致性

一个理想的统计检验应当具备一致性(consistency)。所谓一致性,是指当实际 H0H_0H0​ 为假、样本量 n→∞n \to \inftyn→∞ 时,检验犯第二类错误(即没有拒绝 H0H_0H0​)的概率 β\betaβ 会收敛到 000,即强有力地识别出假设错误;而当 H0H_0H0​ 为真时,第一类错误概率 α\alphaα 能始终受控于你设定的水平。

其数学表达式为:

  • 若 H0H_0H0​ 为假,lim⁡n→∞1−β=1\lim_{n \to \infty} 1 - \beta = 1limn→∞​1−β=1(功效趋近于 111)
  • 若 H0H_0H0​ 为真,α\alphaα 不随 nnn 增大而变大

这意味着:

  • 如果 H0H_0H0​ 为假,随着样本量 nnn 增加,概率几乎一定能正确地拒绝 H0H_0H0​。
  • 如果 H0H_0H0​ 为真,样本量再大也不会让错误拒绝 H0H_0H0​ 的风险(α\alphaα)失控。

图形说明:随着样本量 nnn 增加,检验功效 1−β1-\beta1−β 显著提升,趋近于 111,而第一类错误概率 α\alphaα 总是控制在你预先设定的水平(如 5%5\%5%)不变。这正是一致性假设检验的精髓和优越性。

经典方法论 vs. 贝叶斯方法论

在统计假设检验中,经典(频率学派)和贝叶斯方法常被对比。各有优劣,平台选择取决于实际问题背景与研究者偏好。

经典方法(如Neyman-Pearson)的特征:

  • 只基于样本和分布,给出“拒绝/不拒绝”H0H_0H0​ 的非概率性推断
  • 只在设定的 α\alphaα 水平控制第一类错误概率
  • 不引入先验概率——只有样本数据本身,不涉主观信念
  • 不太容易解释“H0H_0H0​ 成立的概率是多少”这种问题

贝叶斯方法的特征:

  • 先输入主观或外部信息(先验),通过观测数据更新为后验概率
  • 能直接回答“H0H_0H0​ 成立的概率是多少”这类问题
  • 结果以概率描述,更便于解释和决策
  • 可整合不同来源、不同阶段的证据,提高累积性

例如,经典 ppp 值反映的是“在 H0H_0H0​ 成立下观测到的数据或更极端的概率”,并不是“H0H_0H0​ 成立的概率”;而贝叶斯方法可以直接计算 P(H0∣data)P(H_0|data)P(H0​∣data)。

在实际研究中,如果检验统计量(如 ttt 值或 zzz 值)非常接近临界值,比如 t=1.95t=1.95t=1.95 而临界值为 1.961.961.96,此时结果极其接近边界,要格外小心。建议完整报告 ppp 值甚至置信区间,供读者自行判断证据强度和实际意义。


线性假设的一般形式

welearn-34770189.webp

在经济学和计量经济学的实证实践中,针对回归模型参数的各种复杂理论检验,往往都可以转化为“线性约束”的矩阵化表达。采用通用的矩阵记号,可以统一处理单一参数、参数组,乃至参数线性关系等多样命题。这对于后续的统计推断和模型解释极为便利,也有助于理论假设与实际推断的对接。

假设的矩阵表示法

最常见的线性假设可以形式化为如下矩阵表达式:

H0:Rβ=qH_0:\quad R\beta = qH0​:Rβ=q

这里:

  • RRR:为 J×KJ \times KJ×K 的已知矩阵,JJJ 表示约束数量(即有多少条独立假设),KKK为模型参数个数。
  • β\betaβ:为 K×1K \times 1K×1 的参数(未知,不同变量的回归系数)。
  • qqq:为 J×1J \times 1J×1 的已知常数向量。

通过这个框架,各种常见和复杂的经济假设都能兼容。例如:

例如:

  • 单一系数检验:若检验 H0:βk=0H_0: \beta_k = 0H0​:βk​=0,则 RRR 取一行,第 kkk 个元素为 111,其余为 000;q=0q=0q=0。
  • 系数差异:若检验 H0:β2−β3=0H_0: \beta_2 - \beta_3 = 0H0​:β2​−β3​=0,则 R=[0,1,−1,0,… ]R = [0,1,-1,0,\dots]R=[0,1,−1,0,…](第2列为1,第3列为-1)。
  • 系数线性组合等于定值:如 H0:β2+β3=1H_0: \beta_2 + \beta_3 = 1H0​:β2​+β3​=1,则 R=[0,1,1,0,… ]R = [0,1,1,0,\dots]R=[0,1,1,0,…],q=1q=1q=1。

更多常见线性假设及其矩阵化举例

假设类型经济学场景约束表达RRR 矩阵qqq 向量
单参数为零某变量无影响β3=0\beta_3 = 0β3​=0[0, 0, 1, 0,… ][0,\ 0,\ 1,\ 0,\dots][0, 0, 1, 0,…][0][0][0]
两系数相等两效应相同β2=β3\beta_2 = \beta_3β2​=β3​[0, 1, −1, 0,… ][0,\ 1,\ -1,\ 0,\dots][0, 1, −1, 0,…][0][0][0]
系数和为1堪称规模报酬不变β2+β3=1\beta_2 + \beta_3 = 1β2​+β3​=1[0, 1, 1, 0,… ][0,\ 1,\ 1,\ 0,\dots][0, 1, 1, 0,…][1][1][1]
多参数全为0变量组不显著β2=β3=β4=0\beta_2 = \beta_3 = \beta_4 = 0β2​=β3​=β4​=03×33\times33×3 单位矩阵块[0,0,0][0,0,0][0,0,0]
组合效应为零实际利率总效应为零β2+β3=0\beta_2 + \beta_3 = 0β2​+β3​=0[0, 1, 1, 0,… ][0,\ 1,\ 1,\ 0,\dots][0, 1, 1, 0,…][0][0][0]

无论是对单参数还是多参数的线性组合,都可以很直观地嵌入上面的 RRR、qqq 框架。这为后续联合检验与约束检验提供了极大灵活性。

中国实证场景下的假设设定举例

比如我们关注中国城乡消费行为的计量模型如下:

ln⁡(消费)=β1+β2ln⁡(收入)+β3ln⁡(财富)+β4⋅利率+β5⋅时间趋势+ε\ln(\text{消费}) = \beta_1 + \beta_2\ln(\text{收入}) + \beta_3\ln(\text{财富}) + \beta_4 \cdot \text{利率} + \beta_5 \cdot \text{时间趋势} + \varepsilonln(消费)=β1​+β2​ln(收入)+β3​ln(财富)+β4​⋅利率+β5​⋅时间趋势+ε

典型的经济理论假设可能有:

  1. 财富效应为零

    H0:β3=0H_0: \beta_3 = 0H0​:β3​=0

    表示:财富变量对消费无独立影响。

  2. 利率影响中性

    H0:β4=0H_0: \beta_4 = 0H0​:β4​=0

    检验:利率对消费否有显著作用。

  3. 长期均衡弹性

    H0:β2+β3=1H_0: \beta_2 + \beta_3 = 1H0​:β2​+β3​=1

    即:收入和财富弹性之和等于 111,代表长期总弹性。

  4. 整体效应无显著

    H0:β2=β3=β4=β5=0H_0: \beta_2 = \beta_3 = \beta_4 = \beta_5 = 0H0​:β2​=β3​=β4​=β5​=0

    检查:这些变量整体是否对消费完全不起作用。

这些假设对应着具体的经济学理论问题。借由 RRR 和 qqq 的设定,你可以在实证研究中灵活搭建结构性假设框架,对中国经济问题作有力检验。


Wald 检验法

Wald 检验是经典线性模型参数约束检验中最基础也最常用的方法之一,也叫“显著性检验”。其核心思路是:若原假设成立,则参数估计值与假设值应非常接近,若偏离显著,则可怀疑原假设不成立。

Wald 检验可以用于单个参数、参数差值甚至参数线性组合的显著性考察。

单参数的 Wald(t)统计量

以单一参数为例,Wald 检验统计量其实就是我们熟悉的“t 统计量”,具体公式为:

t=bk−β0kse(bk)t = \frac{b_k - \beta_{0k}}{\mathrm{se}(b_k)}t=se(bk​)bk​−β0k​​

其中:

  • bkb_kbk​ 为某参数的估计值
  • β0k\beta_{0k}β0k​ 为假设下的值(往往为 000)
  • se(bk)\mathrm{se}(b_k)se(bk​) 为 bkb_kbk​ 的标准误

进一步地,对于单参数的双侧检验,当 ∣t∣|t|∣t∣ 超过临界值时(通常在 1.961.961.96 的水平(5%5\%5% 显著性)),说明观测值与假设值之间偏差很大,可以拒绝原假设。

t 检验实感例:教育收益率

以中国教育收益率回归为例:
假设已回归得到下列结果:

  • 教育收益率:b^k=8.5%\hat{b}_k = 8.5\%b^k​=8.5%
  • 标准误差:se(b^k)=1.2%\mathrm{se}(\hat{b}_k)=1.2\%se(b^k​)=1.2%
  • 检验假设:H0: βk=0H_0:\ \beta_k=0H0​: βk​=0(教育对收入无影响)

那么 t 统计量为:

t=8.5%1.2%=7.08t = \frac{8.5\%}{1.2\%} = 7.08t=1.2%8.5%​=7.08

直观地,7.087.087.08 远大于双侧检验 5%5\%5% 临界值 1.961.961.96,我们强烈拒绝原假设,即“教育对收入无影响”并不成立。

置信区间与假设检验的等价性

值得强调的是,t 检验与置信区间其实反映的是同一问题的两种表述方法:

  • t 检验角度:若 ∣t∣>1.96|t| > 1.96∣t∣>1.96,在 5%5\%5% 显著性水平下拒绝 H0: β=0H_0:\ \beta=0H0​: β=0。
  • 置信区间角度:若 000 不在 95%95\%95% 置信区间内,也同样拒绝 H0: β=0H_0:\ \beta=0H0​: β=0。

也就是说,这两种检验逻辑是等价的,只是信息表达角度不同。

中国艺术品市场的回归检验

假如你已回归了以下模型(430 幅莫奈画作的拍卖数据):

ln⁡(价格)=−8.427+1.334ln⁡(面积)−0.165(长宽比)\ln(\text{价格}) = -8.427 + 1.334 \ln(\text{面积}) - 0.165 \text{(长宽比)}ln(价格)=−8.427+1.334ln(面积)−0.165(长宽比)

(标准误分别为 (0.612), (0.091), (0.128)(0.612),\ (0.091),\ (0.128)(0.612), (0.091), (0.128))

逐项检验:

  • 面积效应:

    t=1.3340.091=14.70≫1.96t = \frac{1.334}{0.091} = 14.70 \gg 1.96t=0.0911.334​=14.70≫1.96

    强烈拒绝 H0: β2=0H_0:\ \beta_2=0H0​: β2​=0。买家对尺寸显著关心。

  • 长宽比效应:

    t=−0.1650.128=−1.30t = \frac{-0.165}{0.128} = -1.30t=0.128−0.165​=−1.30

    ∣t∣<1.96|t|<1.96∣t∣<1.96,不能拒绝 H0: β3=0H_0:\ \beta_3=0H0​: β3​=0。长宽比重要性不显著。

该例子说明:同一个回归模型中,变量对因变量影响的显著性可能大相径庭。借助ttt检验,能够为变量对经济结果的重要程度,提供客观、可度量的证据。

单侧检验与双侧检验

有时经济理论假设拥有方向性(单侧),比如效应“是否大于”某一值。例如,检验面积弹性是否大于 1:

H0:β2≤1H1:β2>1\begin{aligned} & H_0: \beta_2 \leq 1 \\ & H_1: \beta_2 > 1 \\ \end{aligned}​H0​:β2​≤1H1​:β2​>1​

此为右尾单侧检验,此时5%5\%5%临界值约为 1.6451.6451.645(而不是1.961.961.96)。

在艺术品例子中,带入数值得:

t=1.334−10.091=3.67>1.645t = \frac{1.334 - 1}{0.091} = 3.67 > 1.645t=0.0911.334−1​=3.67>1.645

可见 ttt 超出单侧临界值,故拒绝 H0H_0H0​,即面积弹性显著大于 111。这意味着艺术品市场具有“尺寸溢价”的特殊经济现象。


多重约束的联合检验

F统计量的构造

当我们需要同时检验多个约束条件时,单靠逐项 ttt 检验已不够。此时应使用 FFF 检验来判断多个参数是否可以联合成立。FFF 统计量基于 Wald 距离度量,可写作:

F=(Rb−q)′[R⋅s2(X′X)−1R′]−1(Rb−q)JF = \frac{(R\mathbf{b} - \mathbf{q})' [R \cdot s^2 (X'X)^{-1} R']^{-1} (R\mathbf{b} - \mathbf{q})}{J}F=J(Rb−q)′[R⋅s2(X′X)−1R′]−1(Rb−q)​

其中:

  • RRR 为 J×KJ \times KJ×K 的约束矩阵(JJJ 为约束个数,KKK 为回归参数个数),
  • b\mathbf{b}b 为估计参数向量,
  • q\mathbf{q}q 为约束值,
  • s2s^2s2 为回归残差方差的估计值。

FFF 统计量刻画了样本估计值与假设值之间的加权距离,反映了所有 JJJ 个约束同时成立的证据强度。

F检验的经济学直觉与判定标准

FFF 检验主要关注的问题是:“这 JJJ 个约束可以同时成立吗?” 即便每一个约束对应的 ttt 检验均不显著,它们的联合效应有时依然可能显著。

下图展示了 FFF 检验的决策过程,FFF 分布的临界值将拒绝域和接受域清楚划分。当观测 FFF 值落入红色 “拒绝域” 时,应拒绝原假设。

如果观测的 FFF 值大于临界值(即落入红色“拒绝域”),我们就拒绝原假设 H0H_0H0​,认为约束不合理。

投资方程的联合检验

考虑中国投资函数的估计,我们想检验“投资者只关心实际利率”这一理论。具体模型:

ln⁡(投资)=β1+β2 名义利率+β3 通胀率+β4ln⁡(GDP)+β5时间趋势+ϵ\ln(\text{投资}) = \beta_1 + \beta_2\,\text{名义利率} + \beta_3\,\text{通胀率} + \beta_4 \ln(\text{GDP}) + \beta_5 \text{时间趋势} + \epsilonln(投资)=β1​+β2​名义利率+β3​通胀率+β4​ln(GDP)+β5​时间趋势+ϵ

理论假设为:H0:β2+β3=0H_0: \beta_2 + \beta_3 = 0H0​:β2​+β3​=0

假设使用 1950-2000 年季度数据,估计结果为:

  • b2=−0.0086b_2 = -0.0086b2​=−0.0086,se(b2)=0.0032se(b_2) = 0.0032se(b2​)=0.0032
  • b3=0.0033b_3 = 0.0033b3​=0.0033,se(b3)=0.0023se(b_3) = 0.0023se(b3​)=0.0023
  • Cov⁡(b2,b3)=−3.7×10−6\operatorname{Cov}(b_2, b_3) = -3.7 \times 10^{-6}Cov(b2​,b3​)=−3.7×10−6

检验步骤:

  1. 约束的估计值:q^=b2+b3=−0.0086+0.0033=−0.0053\hat{q} = b_2 + b_3 = -0.0086 + 0.0033 = -0.0053q^​=b2​+b3​=−0.0086+0.0033=−0.0053
  2. 标准误:se(q^)=Var⁡(b2)+Var⁡(b3)+2Cov⁡(b2,b3)=0.00287se(\hat{q}) = \sqrt{\operatorname{Var}(b_2) + \operatorname{Var}(b_3) + 2\operatorname{Cov}(b_2, b_3)} = 0.00287se(q^​)=Var(b2​)+Var(b3​)+2Cov(b2​,b3​)​=0.00287
  3. ttt 统计量: t=−0.00530.00287=−1.85t = \frac{-0.0053}{0.00287} = -1.85t=0.00287−0.0053​=−1.85
  4. ∣t∣=1.85<1.96|t| = 1.85 < 1.96∣t∣=1.85<1.96

因此,我们不能拒绝原假设,数据结果支持“投资者只关心实际利率”的理论。

这个例子展示了联合检验在宏观经济政策分析中的实际应用,结果支持了实际利率理论,为货币政策制定提供了依据。


基于拟合优度的F检验

如果我们不关注参数本身,而关注约束对模型整体拟合的影响——此时更直观的做法是直接比较“有无约束模型”的拟合优度变化。若约束成立,加以约束后拟合优度 R2R^2R2 不会明显下降。

拟合优度损失的测量与F统计量

对 R2R^2R2 进行比较,FFF 检验统计量形式如下:

F=(R2−R2∗)/J(1−R2)/(n−K)F = \frac{(R^2 - R^{2*})/J}{(1-R^2)/(n-K)}F=(1−R2)/(n−K)(R2−R2∗)/J​

其中:

  • R2R^2R2 为无约束模型的拟合优度,
  • R2∗R^{2*}R2∗ 为加约束后的拟合优度,
  • JJJ 为约束个数,
  • nnn 为样本容量,KKK 为回归参数个数(含常数)。

如果 R2R^2R2 降低很少,说明约束成立是可以接受的;若降低明显,则约束不成立。

F检验直觉图示

如果拟合优度的损失过大,FFF 检验会显著,表明约束不合理。

整体显著性检验

特别重要的一个 FFF 检验是整体显著性检验:检验除常数项外所有系数是否均为零。

H0:β2=β3=⋯=βK=0H_0: \beta_2 = \beta_3 = \cdots = \beta_K = 0H0​:β2​=β3​=⋯=βK​=0

其 FFF 统计量为

F=R2/(K−1)(1−R2)/(n−K)F = \frac{R^2/(K-1)}{(1-R^2)/(n-K)}F=(1−R2)/(n−K)R2/(K−1)​

其中 K−1K-1K−1 是除常数项外参数数目。

收入方程的整体显著性

例如,考虑中国已婚女性的收入模型:

ln⁡(收入)=β1+β2 年龄+β3 年龄2+β4 教育年限+β5 子女数+ϵ\ln(\text{收入}) = \beta_1 + \beta_2\,\text{年龄} + \beta_3\,\text{年龄}^2 + \beta_4\,\text{教育年限} + \beta_5\,\text{子女数} + \epsilonln(收入)=β1​+β2​年龄+β3​年龄2+β4​教育年限+β5​子女数+ϵ

假设有 n=428n=428n=428 个观测、R2=0.041R^2 = 0.041R2=0.041

则

F[4,423]=0.041/4(1−0.041)/423=4.52F[4,423] = \frac{0.041/4}{(1-0.041)/423} = 4.52F[4,423]=(1−0.041)/4230.041/4​=4.52

查表临界值 F0.05[4,423]≈2.39F_{0.05}[4,423] \approx 2.39F0.05​[4,423]≈2.39,因为 4.52>2.394.52 > 2.394.52>2.39,拒绝原假设。

结论:年龄\text{年龄}年龄、年龄2\text{年龄}^2年龄2、教育年限\text{教育年限}教育年限、子女数\text{子女数}子女数 四个变量联合对收入显著。

整体显著性检验是回归分析的“第一道关”。如果连这个检验都难以通过,则模型结构可能存在根本性问题。

约束最小二乘估计及其性质

有时我们还要在约束条件下求参数——即约束最小二乘(Constrained OLS)估计。它的数学目标是

minimize(y−Xb0)′(y−Xb0)subject toRb0=q\text{minimize} \quad (y - Xb_0)'(y - Xb_0) \quad \text{subject to} \quad Rb_0 = qminimize(y−Xb0​)′(y−Xb0​)subject toRb0​=q

利用拉格朗日法,约束下的参数估计为

b∗=b−(X′X)−1R′[R(X′X)−1R′]−1(Rb−q)\mathbf{b}^* = \mathbf{b} - (X'X)^{-1}R'[R(X'X)^{-1}R']^{-1}(R\mathbf{b} - \mathbf{q})b∗=b−(X′X)−1R′[R(X′X)−1R′]−1(Rb−q)

此处 b\mathbf{b}b 是无约束OLS估计,b∗\mathbf{b}^*b∗ 是约束下的估计。

方差特性:可以证明,约束估计的方差总是小于等于无约束估计:

Var⁡[b∗∣X]≤Var⁡[b∣X]\operatorname{Var}\left[\mathbf{b}^*|X\right] \leq \operatorname{Var}\left[\mathbf{b}|X\right]Var[b∗∣X]≤Var[b∣X]

直观理解:约束本身相当于加入了“额外信息”,提升了估计效率。但如果约束是错误的,则可能引入偏差。

生产函数实证:F检验的实际应用

例如对生产函数类型的判定,常见柯布-道格拉斯(Cobb-Douglas)与超对数生产函数的比较。

柯布-道格拉斯模型:

ln⁡(产出)=β1+β2ln⁡(劳动)+β3ln⁡(资本)+ϵ\ln(\text{产出}) = \beta_1 + \beta_2 \ln(\text{劳动}) + \beta_3 \ln(\text{资本}) + \epsilonln(产出)=β1​+β2​ln(劳动)+β3​ln(资本)+ϵ

更一般的超对数形式:

ln⁡(产出)=β1+β2ln⁡(劳动)+β3ln⁡(资本)+β42(ln⁡(劳动))2+β52(ln⁡(资本))2+β6ln⁡(劳动)ln⁡(资本)+ϵ\begin{aligned} \ln(\text{产出}) &= \beta_1 + \beta_2 \ln(\text{劳动}) + \beta_3 \ln(\text{资本}) \\ &\quad + \frac{\beta_4}{2}\left(\ln(\text{劳动})\right)^2 + \frac{\beta_5}{2}\left(\ln(\text{资本})\right)^2 + \beta_6 \ln(\text{劳动}) \ln(\text{资本}) + \epsilon \end{aligned}ln(产出)​=β1​+β2​ln(劳动)+β3​ln(资本)+2β4​​(ln(劳动))2+2β5​​(ln(资本))2+β6​ln(劳动)ln(资本)+ϵ​

假设检验:

H0:β4=β5=β6=0(柯布-道格拉斯形式成立)H_0: \beta_4 = \beta_5 = \beta_6 = 0 \qquad \text{(柯布-道格拉斯形式成立)}H0​:β4​=β5​=β6​=0(柯布-道格拉斯形式成立)

若

  • 超对数模型 R2=0.955R^2 = 0.955R2=0.955,残差平方和 SSE = 0.680
  • 柯布-道格拉斯 R2=0.943R^2 = 0.943R2=0.943,SSE = 0.852

则

F[3,21]=(0.852−0.680)/30.680/21=1.77F[3,21] = \frac{(0.852 - 0.680)/3}{0.680/21} = 1.77F[3,21]=0.680/21(0.852−0.680)/3​=1.77

查表 F0.05[3,21]=3.07F_{0.05}[3,21] = 3.07F0.05​[3,21]=3.07,1.77<3.071.77 < 3.071.77<3.07,不拒绝原假设。

结论:数据支持柯布-道格拉斯生产结构,无需复杂化为超对数型。

线性约束单项检验

另有一种重要的线性约束检验——规模报酬。对于生产函数:

H0:β2+β3=1(规模报酬不变)H_0: \beta_2 + \beta_3 = 1 \qquad \text{(规模报酬不变)}H0​:β2​+β3​=1(规模报酬不变)

这是单约束,可用 ttt 检验,或 F=t2F = t^2F=t2。如:

F[1,24]=(0.603+0.376−1)2Var⁡(b2)+Var⁡(b3)+2Cov⁡(b2,b3)=0.12F[1,24] = \frac{(0.603 + 0.376 - 1)^2}{\operatorname{Var}(b_2) + \operatorname{Var}(b_3) + 2\operatorname{Cov}(b_2, b_3)} = 0.12F[1,24]=Var(b2​)+Var(b3​)+2Cov(b2​,b3​)(0.603+0.376−1)2​=0.12

0.12≪4.260.12 \ll 4.260.12≪4.26(F0.05[1,24]=4.26F_{0.05}[1,24] = 4.26F0.05​[1,24]=4.26),不拒绝规模报酬不变的假设。

规模报酬检验是产业组织、宏观经济等领域的重要工具。检验结果影响我们对市场结构、产业监管的理解与政策建议。


非嵌套模型的比较

在实际应用和理论研究中,我们经常会遇到如何在多个互不包含的理论框架间进行抉择的问题。这些理论基础下建立的模型往往是非嵌套模型,即它们既不是彼此的特例,也无法通过调整参数彼此转换。这种情况下,传统的FFF检验并不适用,需要更为灵活的方法。

非嵌套模型的挑战

设想如下两个关于中国居民消费行为的理论假说:

理论A(收入-滞后收入模型):

Ct=β1+β2Yt+β3Yt−1+ε0tC_t = \beta_1 + \beta_2 Y_t + \beta_3 Y_{t-1} + \varepsilon_{0t}Ct​=β1​+β2​Yt​+β3​Yt−1​+ε0t​

理论B(收入-滞后消费模型):

Ct=γ1+γ2Yt+γ3Ct−1+ε1tC_t = \gamma_1 + \gamma_2 Y_t + \gamma_3 C_{t-1} + \varepsilon_{1t}Ct​=γ1​+γ2​Yt​+γ3​Ct−1​+ε1t​

上述两种模型都包含三个参数,但变量结构完全不同。例如,理论A包含Yt−1Y_{t-1}Yt−1​而理论B则包含Ct−1C_{t-1}Ct−1​。由于无法直接通过特殊化使一个模型变成另一个,二者即为典型的非嵌套情况。这在实际中非常常见,如不同企业定价理论、不同通货膨胀决定理论等。

J检验:非嵌套模型的比较工具

戴维森和麦金农提出的JJJ检验为非嵌套模型的比较提供了一套系统方法。基本思想可以归纳为:

第一步: 分别独立估计两个竞争模型,得到各自的拟合值y^0\hat{y}_0y^​0​(模型A预测)与y^1\hat{y}_1y^​1​(模型B预测)。

第二步: 以模型B为基础,将模型A的拟合值y^0\hat{y}_0y^​0​增加为解释变量,构造如下模型:

y=γ1+γ2Yt+γ3Ct−1+λy^0+ϵy = \gamma_1 + \gamma_2 Y_t + \gamma_3 C_{t-1} + \lambda \hat{y}_0 + \epsilony=γ1​+γ2​Yt​+γ3​Ct−1​+λy^​0​+ϵ

对λ\lambdaλ进行统计检验。

第三步: 检验原假设H0:λ=0H_0: \lambda = 0H0​:λ=0。

若λ\lambdaλ显著不为零,说明模型A的拟合结果包含了对yyy的解释能力,即模型B存在遗漏信息。因此,我们可据此拒绝模型B。反过来亦然,可互换模型角色进行检验。

消费函数的J检验实证

以中国1950-2000年季度消费数据为例,利用JJJ检验判定上述两种模型优劣:

检验“模型A vs 模型B”:

  • λ^=1.015\hat{\lambda} = 1.015λ^=1.015,ttt统计量 =62.86= 62.86=62.86
  • ∣λ^∣|\hat{\lambda}|∣λ^∣极为显著,说明模型A的信息无法由模型B捕捉,模型B被拒绝

检验“模型B vs 模型A”:

  • λ^=−10.68\hat{\lambda} = -10.68λ^=−10.68,ttt统计量 =−7.19= -7.19=−7.19
  • 显著拒绝模型A

JJJ检验结果可能有四种:拒绝A、拒绝B、同时拒绝两者、或两者都不拒绝。当二者皆被拒绝时,往往暗示真实的数据生成机制比任一理论模型更为复杂,值得探索新的模型设定。

这种现实中的“双拒绝”十分常见,表明我们可能需要融合不同理论机制,构建更全面的综合模型。


模型选择准则

信息准则的基本思想

科学模型选择不仅看拟合优度,更应惩罚无谓的复杂性。信息准则(Information Criterion) 为我们提供了在多个备选模型间进行理性权衡的“客观打分表”。这些准则通常包含两部分:一是残差(拟合误差),二是关于参数个数的惩罚项。

常用信息准则

准则公式说明
调整R2R^2R21−(1−R2)(n−1)n−K1 - \frac{(1-R^2)(n-1)}{n-K}1−n−K(1−R2)(n−1)​直观简单,惩罚参数个数
AICln⁡(SSE/n)+2Kn\ln({\rm SSE}/n) + \frac{2K}{n}ln(SSE/n)+n2K​较适合样本量不大的情境
BICln⁡(SSE/n)+Kln⁡nn\ln({\rm SSE}/n) + \frac{K\ln n}{n}ln(SSE/n)+nKlnn​强调整体模型的简洁性

其中KKK为参数数,nnn为样本量,SSE{\rm SSE}SSE为残差平方和。AICAICAIC(Akaike信息准则)对复杂度惩罚较轻,倾向选择更“灵活”的模型;而BICBICBIC(贝叶斯信息准则)惩罚项随nnn增长,偏好更“简洁”的模型。

信息准则直观对比

如上图所示,AICAICAIC与BICBICBIC的最优点(最小值)可能位于不同模型复杂度:BICBICBIC往往在变量较少时最优,AICAICAIC则允许更复杂模型以提高拟合优度。信息准则告诉我们:模型并不是越复杂越好,应该追求在拟合与简洁之间的平衡。

实质性模型选择策略

在实际研究中,推荐如下模型选择流程:

  1. 理论优先:先用经济理论筛选合理候选模型,避免毫无根据的“数据挖掘”。
  2. 多准则验证:结合AICAICAIC、BICBICBIC、调整R2R^2R2等多种标准交叉检查结果。
  3. 样本外检验:利用未参与拟合的样本,检验模型预测能力(如RMSE、MAPE等)。
  4. 稳健性分析:考察变量选择、样本变动、误差设定等变化对模型结果的影响。

“一般到特殊”建模法的优势

现代计量建模越来越鼓励“从一般到特殊”(general-to-specific, GETS)的逐步简化流程:

  • “特殊到一般”(传统):

    • 先建简单模型,逐步加入变量
    • 容易低估真实结构复杂性,产生遗漏变量偏差
  • “一般到特殊”(现代):

    • 起步即纳入所有合理变量
    • 利用统计检验去除冗余
    • 更能捕捉复杂经济现象,减少设定误差

从“一般到特殊”的策略虽然对计算资源要求较高,但在现代数据与计算能力下,已成为建模主流,可更好发现数据中的真实结构。

预测电影票房的模型选择

以实际案例说明信息准则的应用。假定我们收集62部2009年中国电影的数据,比较以下两种票房预测模型:

  • 传统模型:票房=f(预算, 类型, 评级, 明星效应, 续集)票房 = f(预算,\ 类型,\ 评级,\ 明星效应,\ 续集)票房=f(预算, 类型, 评级, 明星效应, 续集)
  • 网络热度模型:票房=f(预算, 类型, 评级, 明星效应, 续集, 网络热度)票房 = f(预算,\ 类型,\ 评级,\ 明星效应,\ 续集,\ 网络热度)票房=f(预算, 类型, 评级, 明星效应, 续集, 网络热度)

将这两者在不同准则下进行对比:

模型类型R2R^2R2AICBIC样本外RMSE模型优势
传统模型0.3424.234.452.85简单易解读
网络热度模型0.5893.784.022.31预测精度高

结果解读:

  • R2R^2R2提高72%72\%72%(从0.3420.3420.342到0.5890.5890.589),AICAICAIC和BICBICBIC均明显下降
  • 样本外预测误差(RMSE)下降19%19\%19%,显示网络热度对票房预测的重要性

此案例表明,信息准则、预测能力与理论解释应综合考量。互联网影响在当前电影票房预测中已不容忽视。


大样本检验与稳健性

非正态下检验的有效性

在实际数据分析中,误差项常常违背正态分布假定。但根据中心极限定理,当样本量nnn足够大时,许多统计量(如ttt统计量、FFF统计量)依然近似服从标准正态或卡方分布。

大样本近似过程:

  • ttt统计量→\rightarrow→标准正态分布N(0,1)N(0,1)N(0,1)
  • FFF统计量→\rightarrow→卡方分布/自由度

稳健性检验的若干问题

计量检验在实践中需格外关注如下稳健性问题:

  1. 样本量效应:小样本重视正态性假定,大样本则可依赖渐近理论。
  2. 异方差问题:数据中误差方差不恒定时,要用稳健标准误差(如White-校正)。
  3. 序列相关性:时间序列或面板数据常见序列相关,需要特别处理(如Newey-West标准误)。
  4. 模型设定风险:检验结果对模型变量选取、函数形式等可能敏感,应做稳健性考察。

实际应用的建议与注意事项

汇总上述分析,现实数据分析流程应把理论、数据和方法牢牢结合:

应用阶段具体建议注意事项
检验设计以经济理论明晰假设避免盲目“数据挖掘”
统计量计算报告ttt和FFF两类检验保证计算过程准确
稳健性检验应用稳健标准误(如White修正)异方差和序列相关时尤需
结果解释区分统计显著性与实际意义切忌机械解读
政策含义将统计检验结果联系实际政策警惕过度推断

核心要点总结

假设检验的理论体系

我们已经建立了一套完整的假设检验理论框架,涵盖不同限制形式及适用的统计工具。

  • ttt检验:适用于单个线性约束。其统计量形式为 t=约束值标准误差t = \dfrac{\text{约束值}}{\text{标准误差}}t=标准误差约束值​,服从 t(n−K)t(n-K)t(n−K) 分布。
  • FFF检验:用于同时检验多个线性约束。统计量格式为 F=拟合优度损失/J剩余方差/(n−K)F = \dfrac{\text{拟合优度损失}/J}{\text{剩余方差}/(n-K)}F=剩余方差/(n−K)拟合优度损失/J​,服从 F(J,n−K)F(J, n-K)F(J,n−K) 分布。
  • Wald 检验:针对非线性约束。统计量为 W=距离的二次型W = \text{距离的二次型}W=距离的二次型,服从 χ2(J)\chi^2(J)χ2(J) 分布。
  • JJJ检验:用于检验非嵌套模型间的比较,统计量为 t=λ/se⁡(λ)t = \lambda / \operatorname{se}(\lambda)t=λ/se(λ),在大样本下近似服从 N(0,1)N(0, 1)N(0,1)。

经济学应用的指导原则

实际操作中,建议遵循以下原则:

  • 理论先行:假设检验应当建立在明确的经济学理论基础上,有针对性地设定约束,而非盲目数据挖掘。
  • 多重验证:结合多种检验方法以验证结论的稳健性,不能依赖单一指标。
  • 实际意义:不要只关注统计显著性,要判断结果对经济现实是否重要和有解释力。
  • 政策含义:检验结果应与实际政策建议紧密结合,提升分析的应用价值。

模型选择的现代方法

现代理论更强调模型选择的以下几个方面:

  1. 包容性:从较大的模型起步,防止遗漏关键变量造成偏差。
  2. 客观性:常通过信息准则(如 AIC、BIC 等)等客观标准选模。
  3. 预测导向:不仅要拟合样本内数据,更要关注样本外的预测能力。
  4. 不确定性:承认模型选择本身存在一定主观性与偶然性。

假设检验和模型选择是实证经济学的核心方法。它们将经济理论与现实数据连接起来,为政策制定提供科学依据。掌握这些方法,就掌握了现代经济学研究的基本工具。

  • 假设检验的基本思想
    • 从艺术品拍卖说起
    • 假设检验的核心逻辑
    • 两类错误与检验的权衡
    • 嵌套模型与非嵌套模型
  • 假设检验方法论
    • Neyman-Pearson 框架
    • 检验的一致性
    • 经典方法论 vs. 贝叶斯方法论
  • 线性假设的一般形式
    • 假设的矩阵表示法
    • 更多常见线性假设及其矩阵化举例
    • 中国实证场景下的假设设定举例
  • Wald 检验法
    • 单参数的 Wald(t)统计量
    • t 检验实感例:教育收益率
    • 置信区间与假设检验的等价性
    • 中国艺术品市场的回归检验
    • 单侧检验与双侧检验
  • 多重约束的联合检验
    • F统计量的构造
    • F检验的经济学直觉与判定标准
    • 投资方程的联合检验
  • 基于拟合优度的F检验
    • 拟合优度损失的测量与F统计量
    • F检验直觉图示
    • 整体显著性检验
    • 收入方程的整体显著性
    • 约束最小二乘估计及其性质
    • 生产函数实证:F检验的实际应用
    • 线性约束单项检验
  • 非嵌套模型的比较
    • 非嵌套模型的挑战
    • J检验:非嵌套模型的比较工具
    • 消费函数的J检验实证
  • 模型选择准则
    • 信息准则的基本思想
    • 常用信息准则
    • 信息准则直观对比
    • 实质性模型选择策略
    • “一般到特殊”建模法的优势
    • 预测电影票房的模型选择
  • 大样本检验与稳健性
    • 非正态下检验的有效性
    • 稳健性检验的若干问题
    • 实际应用的建议与注意事项
  • 核心要点总结
    • 假设检验的理论体系
    • 经济学应用的指导原则
    • 模型选择的现代方法

目录

  • 假设检验的基本思想
    • 从艺术品拍卖说起
    • 假设检验的核心逻辑
    • 两类错误与检验的权衡
    • 嵌套模型与非嵌套模型
  • 假设检验方法论
    • Neyman-Pearson 框架
    • 检验的一致性
    • 经典方法论 vs. 贝叶斯方法论
  • 线性假设的一般形式
    • 假设的矩阵表示法
    • 更多常见线性假设及其矩阵化举例
    • 中国实证场景下的假设设定举例
  • Wald 检验法
    • 单参数的 Wald(t)统计量
    • t 检验实感例:教育收益率
    • 置信区间与假设检验的等价性
    • 中国艺术品市场的回归检验
    • 单侧检验与双侧检验
  • 多重约束的联合检验
    • F统计量的构造
    • F检验的经济学直觉与判定标准
    • 投资方程的联合检验
  • 基于拟合优度的F检验
    • 拟合优度损失的测量与F统计量
    • F检验直觉图示
    • 整体显著性检验
    • 收入方程的整体显著性
    • 约束最小二乘估计及其性质
    • 生产函数实证:F检验的实际应用
    • 线性约束单项检验
  • 非嵌套模型的比较
    • 非嵌套模型的挑战
    • J检验:非嵌套模型的比较工具
    • 消费函数的J检验实证
  • 模型选择准则
    • 信息准则的基本思想
    • 常用信息准则
    • 信息准则直观对比
    • 实质性模型选择策略
    • “一般到特殊”建模法的优势
    • 预测电影票房的模型选择
  • 大样本检验与稳健性
    • 非正态下检验的有效性
    • 稳健性检验的若干问题
    • 实际应用的建议与注意事项
  • 核心要点总结
    • 假设检验的理论体系
    • 经济学应用的指导原则
    • 模型选择的现代方法
自在学

© 2025 自在学,保留所有权利。

公网安备湘公网安备43020302000292号 | 湘ICP备2025148919号-1

关于我们隐私政策使用条款

© 2025 自在学,保留所有权利。

公网安备湘公网安备43020302000292号湘ICP备2025148919号-1