当我们使用最小二乘法(OLS)对多元回归模型进行估计时,得到的系数只是基于样本数据的点估计。然而,我们真正关心的是这些估计值能在多大程度上反映总体的真实情况。这就需要我们从简单的“估计”进入到“统计推断”的领域。

如果我们研究北京市房价与各种因素的关系,仅仅知道“每增加一平方米,房价平均上涨8000元”是不够的。我们还需要知道这个8000元的估计有多可靠,是否具有统计显著性,以及我们能对这个估计的准确程度有多大把握。
统计推断让我们能够从样本信息推断总体特征,并量化这种推断的不确定性。这是经济学实证研究的核心技能。
在之前的学习中,我们知道在高斯-马尔可夫假设下,OLS估计量是最优线性无偏估计量(BLUE)。但要进行假设检验和构建置信区间,我们需要知道估计量的完整概率分布,而不仅仅是均值和方差。
这就引出了经典线性模型的第六个关键假设:
正态性假设(MLR.6):随机误差项 独立于所有解释变量 ,且服从均值为0、方差为 的正态分布,即:
当我们将前面的五个高斯-马尔可夫假设与正态性假设结合时,就构成了经典线性模型(CLM)。在CLM假设下,OLS估计量不仅是BLUE,还具有更强的效率性质:它们是所有无偏估计量中方差最小的,不再局限于线性估计量。
经典线性模型 = 高斯-马尔可夫假设 + 正态性假设,为我们提供了进行精确统计推断的理论基础。
让我们通过一个具体例子来理解正态性假设的含义:
例子:中国城市空气质量研究
假设我们研究中国各城市的PM2.5浓度与经济发展水平、工业化程度、地理位置等因素的关系:
正态性假设意味着,在控制了GDP、工业化程度和人口规模后,其他未被模型包含的所有因素(如气候条件、地形特征、政策差异等)对PM2.5的综合影响服从正态分布。
正态性假设的理论依据来自中心极限定理。误差项 通常是许多未观察到的小因素的综合影响,当这些因素数量足够多且相互独立时,它们的总和趋向于正态分布。
但我们也要认识到这个假设的局限性:
在正态性假设下,OLS估计量的抽样分布变得明确。对于任意系数βⱼ的估计量β̂ⱼ,我们有:
β̂ⱼ ~ N(βⱼ, Var(β̂ⱼ))
但在实践中,我们不知道真实的方差 Var(β̂ⱼ),必须用标准误差 se(β̂ⱼ) 来估计。这时,标准化的统计量:
t = (β̂ⱼ - βⱼ) / se(β̂ⱼ)
服从自由度为 的t分布,其中n是样本量,k是解释变量个数。
让我们通过一个现实例子来理解t检验的应用:
例子:中国高等教育回报率研究

假设我们研究教育对收入的影响,建立如下模型:
我们关心的核心问题是:教育是否真的能提高收入?
这可以表述为假设检验问题:
假设我们得到以下估计结果:
对于教育年限的t统计量:
在5%显著性水平下,临界值约为1.65(单侧检验)。由于7.08 > 1.65,我们拒绝原假设,认为教育确实能显著提高收入。
与传统的临界值比较相比,p值提供了更灵活的判断方式。p值表示在原假设为真的条件下,观察到当前或更极端统计量的概率。
继续上面的教育回报率例子,教育年限的t统计量为7.08。对应的p值几乎为0(小于0.001),这意味着如果教育真的对收入没有影响,我们观察到如此大的t统计量的概率几乎为零。
p值越小,说明证据越强烈地反对原假设。通常,p < 0.05 被认为是"统计显著",p < 0.01 被认为是"高度显著"。
统计显著性并不等同于经济显著性。让我们通过另一个例子来说明:
例子:股票投资组合研究
假设我们研究某个投资策略,发现其月均超额收益为0.02%,t统计量为2.5(统计显著)。
虽然这个结果在统计上显著,但0.02%的月收益在经济上几乎没有意义,因为:
置信区间为参数估计的不确定性提供了一个直观的度量。95%置信区间的含义是:如果我们重复抽样很多次,约有95%的区间会包含真实的参数值。
对于参数 βⱼ,其95%置信区间为:
[β̂ⱼ - c · se(β̂ⱼ), β̂ⱼ + c · se(β̂ⱼ)]
其中c是t分布的97.5%分位数。
例子:北京市房价影响因素分析
假设我们估计了北京市房价模型,得到以下结果:
其中location是地段评分,age是房龄。假设地段评分系数的标准误差为0.08,样本量为200。
地段评分系数的95%置信区间为:
这意味着我们有95%的把握认为,地段评分每提高1分,房价对数增长在0.263到0.577之间。
置信区间与假设检验密切相关。如果某个特定值不在95%置信区间内,那么在5%显著性水平下,我们就会拒绝该参数等于这个值的原假设。
继续上面的房价例子,由于0不在地段评分系数的95%置信区间[0.263, 0.577]内,我们在5%水平下拒绝的原假设,认为地段对房价有显著影响。
有时我们需要同时检验多个系数的假设。比如,在研究企业绩效的影响因素时,我们可能想知道一组变量(如管理层特征变量)是否整体上对企业绩效有影响。
这就是F检验的用武之地。F检验能够检验多个线性约束条件的联合假设。
F检验基于以下思想:如果一组变量真的对因变量没有影响,那么从模型中去掉这些变量时,模型的解释能力不应该显著下降。
F统计量的计算公式为:
F = [(SSRᵣ - SSRᵤᵣ)/q] / [SSRᵤᵣ/(n-k-1)]
其中:

例子:公司治理结构对企业绩效的影响
假设我们研究中国上市公司治理结构对企业ROE的影响:
其中:
我们想检验公司治理变量(board, independent, ownership)是否整体上对企业绩效有影响:
(治理结构对绩效无影响)
:至少有一个
假设得到以下结果:
样本量n=500,无约束模型参数个数k+1=6。
F统计量计算:
在F(3,494)分布下,5%临界值约为2.60。由于27.72 > 2.60,我们拒绝原假设,认为公司治理变量整体上对企业绩效有显著影响。
为了便于计算,F统计量也可以用R²表示:
F = [(R²ᵤᵣ - R²ᵣ)/q] / [(1-R²ᵤᵣ)/(n-k-1)]
使用上面公司治理的例子: F = (0.456-0.398)/3 / (1-0.456)/(500-6) = 0.0193/0.0011 = 17.55
这与基于SSR的计算结果一致(差异来自四舍五入)。
要注意F检验只能告诉我们一组变量是否联合显著,但不能告诉我们哪个具体变量是显著的。如果F检验拒绝原假设,我们还需要进一步的分析来确定关键变量。
学术和实务界对回归结果的报告有一套约定俗成的标准。规范的报告不仅有助于读者理解研究结果,也体现了研究的严谨性。
一个完整的回归结果表格应包含以下要素:

表1:中国城市房价影响因素回归结果
被解释变量:log(房价)
注:**, **, 分别表示在1%, 5%, 10%水平下显著;括号内为稳健标准误差
好的回归结果解释应该包含以下几个层面:
1. 统计显著性解释 “房屋面积对价格具有高度显著的正向影响,面积每增加1%,房价平均上涨约0.69%”
2. 经济显著性评估
“从经济意义上看,这意味着一套100平米的房子如果增加到120平米(增加20%),价格将上涨约13.8%”
3. 政策含义讨论 “这一结果表明,在住房供给有限的情况下,大户型住房具有更强的投资价值”
记住,数字会说话,但需要我们来翻译。好的经济学研究不仅要有严谨的技术分析,更要有深刻的经济直觉和清晰的表达能力。
统计推断是连接数据与决策的桥梁。通过掌握t检验、置信区间和F检验这些核心工具,我们能够:
但技术只是手段,最终目标是获得对经济现象的深刻理解。正如著名经济学家萨缪尔森所说:“经济学不是数学,但需要数学”。
掌握了这些统计推断工具,你就拥有了解读经济数据、验证经济理论、指导经济决策的强大武器。记住,工具的价值在于使用它的人的智慧。
在接下来的学习中,我们将继续探索更高级的计量经济学方法,包括如何处理违反经典假设的情况,以及如何在复杂的现实世界中应用这些理论工具。
| 0.670 |
| 0.731 |
| 0.755 |
| F统计量 | 2,934*** | 1,987*** | 1,634*** |