线性回归模型
3 / 16
最小二乘估计量
自在学
首页课程创意工坊价格
首页课程创意工坊价格
经济学计量经济学最小二乘法

最小二乘法

welearn-83648568 (1).png

在经济学研究中,我们经常需要从一组看似无序、杂乱的数据点中寻找背后的模式与规律。例如,你是一位房地产分析师,手中掌握着北京市100套房子的面积和价格数据。这些数据在平面坐标图中分布得零零散散,表面上看不到明显的关联,但你的直觉告诉你,房屋面积和价格之间应当存在某种关系。你的任务就是要用科学的方法,从这些“噪声”中提取出有用的信号。

这时,最小二乘法就派上了用场。可以把它想象成一位经验丰富的裁缝,能够在无数数据点中为你量身裁剪出一条“最合身”的直线。这条直线不仅仅是对所有数据的简单连接,而是以特定原则(使预测值与实际值的偏差平方和最小)来反映变量之间最根本的关系。

在前面的内容中,我们已经建立了基本的线性回归模型框架。现在,我们面临的核心实际问题是:如何通过已有数据,合理估计模型中的未知参数。虽然现实中存在多种估计方法可供选择,但最小二乘法因其直观、便于计算,同时具备坚实的理论基础,因此成为众多学科中最主流、最受欢迎的方法。即便在个别情况下有其他更优的估计方法,最小二乘法依然是重要的参考基准。实际上,许多新发展起来的改进方法,本质上都是对最小二乘法的某种扩展或修正。

总而言之,最小二乘法既是实用的数据工具,也是理解经济学实证分析的基础。


最小二乘回归的基本思想

在经济学和数据分析中,我们常用如下随机关系式来描述变量之间的关系:

yi=xiβ+εiy_i = x_i\beta + \varepsilon_iyi​=xi​β+εi​

在理解和使用这个公式时,有几个重要概念要注意区分:

概念类型总体参数样本估计含义
回归系数β\betaβbbb真实参数 vs 估计值
误差项εi\varepsilon_iεi​eie_iei​真实误差 vs 残差
回归方程E[yi∣xi]=xiβE[y_i\mid x_i] = x_i\betaE[yi​∣xi​]=xi​βy^i=xib\hat{y}_i = x_iby^​i​=xi​b总体关系 vs 样本关系

例如,若我们正在研究中国消费者的收入与支出关系,真实的总体关系是

E[支出∣收入]=xiβE[\text{支出} \mid \text{收入}] = x_i\betaE[支出∣收入]=xi​β

但在现实研究中,我们只能基于样本数据,得到类似

y^i=xib\hat{y}_i = x_iby^​i​=xi​b

的估计关系。这里的 xix_ixi​ 代表每个样本点的自变量,y^i\hat{y}_iy^​i​ 是模型的预测值。

残差的几何意义

对于任意估计值 bbb,我们定义第 iii 个观测的残差为:

ei=yi−xibe_i = y_i - x_ibei​=yi​−xi​b

残差 eie_iei​ 反映了实际观测值与预测值之间的“距离”。以房价预测为例,若实际价格为500万元,而模型预测为480万元,则残差为20万元。更小的残差意味着模型预测得越精确。几何上,每个残差可以看作数据点到拟合直线的垂直距离。


最小二乘系数向量的推导

优化目标的设定

最小二乘法的核心思想是:从所有可能的直线(或超平面)中,选出那条使所有数据点到直线的“垂直距离”平方和最小。用数学语言表达为:

S(b)=∑i=1n(yi−xib)2S(b) = \sum_{i=1}^n (y_i - x_ib)^2S(b)=i=1∑n​(yi​−xi​b)2

这个目标实际上是在“拟合”中追求整体误差总量的最小化,也即将预测误差的平方和降到最低。

为何选择平方和而不是绝对值和?

  • 平方和在数学上具有良好性质,便于求导和后续理论推导。
  • 对异常值敏感,有助于模型在一般样本下表现最优(但在异常值多的情况要注意)。
  • 有明确的统计解释,奠定了高斯-马尔可夫定理等重要结论的基础。

使用平方和的优势:

  1. 数学上易于求导和优化;
  2. 对异常值更加敏感,能够避免极端情况的影响;
  3. 具有良好的统计性质。

矩阵形式的表达

对于多元回归模型,我们常用矩阵表达,大大简化推导和计算:

S(b)=(y−Xb)T(y−Xb)S(b) = (y - Xb)^\mathrm{T}(y - Xb)S(b)=(y−Xb)T(y−Xb)

其中 yyy 是 n×1n \times 1n×1 的观测向量,XXX 是 n×kn \times kn×k 的自变量矩阵,bbb 是 k×1k \times 1k×1 的回归系数向量。

将 S(b)S(b)S(b) 展开可得:

S(b)=yTy−2yTXb+bTXTXbS(b) = y^\mathrm{T}y - 2y^\mathrm{T}Xb + b^\mathrm{T}X^\mathrm{T}XbS(b)=yTy−2yTXb+bTXTXb

求解过程

要找到最小值点,需要对 bbb 求偏导并令其等于0,得到一阶最优条件:

∂S(b)∂b=−2XTy+2XTXb=0\frac{\partial S(b)}{\partial b} = -2X^\mathrm{T}y + 2X^\mathrm{T}Xb = 0∂b∂S(b)​=−2XTy+2XTXb=0

这就得到了著名的正规方程组(Normal Equations):

XTXb=XTyX^\mathrm{T}Xb = X^\mathrm{T}yXTXb=XTy

若 XTXX^\mathrm{T}XXTX 可逆(即XXX列满秩),解为:

b∗=(XTX)−1XTy\mathbf{b^*} = (X^\mathrm{T}X)^{-1}X^\mathrm{T}yb∗=(XTX)−1XTy

这个公式是最小二乘法的核心结果,b∗=(XTX)−1XTy\mathbf{b^*} = (X^\mathrm{T}X)^{-1}X^\mathrm{T}yb∗=(XTX)−1XTy 告诉我们如何利用样本数据直接计算最优的回归系数估计值。

二阶条件验证

为了验证确实得到的是最小值而不是最大值或鞍点,我们考察二阶导数矩阵(Hessian):

∂2S(b)∂b∂bT=2XTX\frac{\partial^2 S(b)}{\partial b \partial b^\mathrm{T}} = 2X^\mathrm{T}X∂b∂bT∂2S(b)​=2XTX

只要 XTXX^\mathrm{T}XXTX 是正定矩阵(通常这要求 XXX 满列秩,回归变量之间无完全多重共线性),最优解 bbb 就是使误差平方和最小的唯一解。因此,这种几何和代数上的最优性为最小二乘法打下了坚实基础。

补充说明:这种推导方式不仅适用于一元线性回归,也同样适用于含有多个变量的多元线性回归,为实际操作与理论分析提供了完整的数学依据。

投资方程案例

为了更深入理解最小二乘法的实际应用,我们借助一个具体的宏观经济案例展开。假设我们希望研究中国实际投资(YYY)与一系列经济因素之间的关系,包括:实际GDP(GGG)、时间趋势(TTT)、利率(RRR)、以及通胀率(PPP)。

这些变量的含义和单位如下所示:

变量含义单位
YYY实际投资万亿元
GGG实际GDP万亿元
TTT时间趋势年份序号
RRR利率百分比
PPP通胀率百分比

为了便于演算,我们先考虑一个简化模型,只包含三个自变量(常数项、时间趋势和实际GDP):

Yi=b1+b2Ti+b3Gi+εiY_i = b_1 + b_2 T_i + b_3 G_i + \varepsilon_iYi​=b1​+b2​Ti​+b3​Gi​+εi​

其中 i=1,2,…,ni=1,2,\ldots,ni=1,2,…,n。

三变量回归——手工推导正规方程

根据最小二乘法的原理,我们要最小化残差平方和:

S(b1,b2,b3)=∑i=1n(Yi−b1−b2Ti−b3Gi)2S(b_1, b_2, b_3) = \sum_{i=1}^n \left( Y_i - b_1 - b_2 T_i - b_3 G_i \right)^2S(b1​,b2​,b3​)=i=1∑n​(Yi​−b1​−b2​Ti​−b3​Gi​)2

对各个回归系数分别求偏导并令其为零,得到一阶条件,推导出下列正规方程组:

{b1n+b2∑i=1nTi+b3∑i=1nGi=∑i=1nYib1∑i=1nTi+b2∑i=1nTi2+b3∑i=1nTiGi=∑i=1nTiYib1∑i=1nGi+b2∑i=1nTiGi+b3∑i=1nGi2=∑i=1nGiYi\begin{cases} b_1 n + b_2 \sum_{i=1}^n T_i + b_3 \sum_{i=1}^n G_i = \sum_{i=1}^n Y_i \\ b_1 \sum_{i=1}^n T_i + b_2 \sum_{i=1}^n T_i^2 + b_3 \sum_{i=1}^n T_i G_i = \sum_{i=1}^n T_i Y_i \\ b_1 \sum_{i=1}^n G_i + b_2 \sum_{i=1}^n T_i G_i + b_3 \sum_{i=1}^n G_i^2 = \sum_{i=1}^n G_i Y_i \end{cases}⎩⎨⎧​b1​n+b2​∑i=1n​Ti​+b3​∑i=1n​Gi​=∑i=1n​Yi​b1​∑i=1n​Ti​+b2​∑i=1n​Ti2​+b3​∑i=1n​Ti​Gi​=∑i=1n​Ti​Yi​b1​∑i=1n​Gi​+b2​∑i=1n​Ti​Gi​+b3​∑i=1n​Gi2​=∑i=1n​Gi​Yi​​

或者更紧凑地写为矩阵形式:

(n∑Ti∑Gi∑Ti∑Ti2∑TiGi∑Gi∑TiGi∑Gi2)(b1b2b3)=(∑Yi∑TiYi∑GiYi)\begin{pmatrix} n & \sum T_i & \sum G_i \\ \sum T_i & \sum T_i^2 & \sum T_i G_i \\ \sum G_i & \sum T_i G_i & \sum G_i^2 \end{pmatrix} \begin{pmatrix} b_1 \\ b_2 \\ b_3 \end{pmatrix} = \begin{pmatrix} \sum Y_i \\ \sum T_i Y_i \\ \sum G_i Y_i \end{pmatrix}​n∑Ti​∑Gi​​∑Ti​∑Ti2​∑Ti​Gi​​∑Gi​∑Ti​Gi​∑Gi2​​​​b1​b2​b3​​​=​∑Yi​∑Ti​Yi​∑Gi​Yi​​​

手动计算这组三元一次方程组是非常繁琐的。对于更高维度的多元回归,这种计算几乎不可能手工完成。

当回归模型包含三个及以上变量时,手动代数求解会变得异常复杂,此时必须借助矩阵代数以及计算机算法来进行高效求解。

现代经济学与计量分析中,我们通常依赖如 R、Python、Stata 等统计软件,通过内置的线性回归函数,直接调用最小二乘公式

b∗=(XTX)−1XTy\mathbf{b^*} = (X^\mathrm{T}X)^{-1} X^\mathrm{T} yb∗=(XTX)−1XTy

高效、准确地求出回归系数。但理解上述推导和正规方程结构,对于解释回归结果背后的经济含义、检查模型设定、检测异常及错误,仍然非常关键。

因此,学习最小二乘法不仅是理解统计计算,更是深入体会“由数据支撑的经济学解释”。


最小二乘解的重要性质

残差的三个基本特性

当我们运用最小二乘法拟合数据集后,所得的残差 eie_iei​ 具有以下三个极其重要的基本性质,理解这些性质对于深入分析经济数据、判断模型有效性有着举足轻重的意义。

特性一:残差之和为零

在包含常数项的回归模型中,所有残差之和恒为零,即

∑i=1nei=0\sum_{i=1}^n e_i = 0i=1∑n​ei​=0

这一点意味着什么?可以理解为:如果你的回归模型合理、无偏,那么高估和低估将会在总体上相互抵消,模型的预测结果在全局上是“平衡”的。例如,根据这个性质,预测房价时偶尔低估或高估并不可怕,关键是不能长期、系统性地偏高或偏低。

特性二:回归超平面必然通过均值点

多元线性回归中的回归超平面(或在两变量情况下为回归直线)必然通过所有变量的均值点,即

yˉ=xˉTb\bar{y} = \bar{\mathbf{x}}^\mathrm{T}\mathbf{b}yˉ​=xˉTb

其中 yˉ\bar{y}yˉ​ 是因变量的均值,xˉ\bar{\mathbf{x}}xˉ 是解释变量的均值向量,b\mathbf{b}b 是估计系数向量。这一性质说明,不论数据如何分布,回归模型的拟合总是会“穿过”样本均值点。例如,若平均收入为 555 万元,平均消费为 333 万元,则拟合的消费函数一定经过点 (5,3)(5, 3)(5,3)。

特性三:拟合值的均值等于实际值的均值

最小二乘回归保证拟合值的均值与因变量的实际均值相等,即

1n∑i=1ny^i=1n∑i=1nyi\frac{1}{n}\sum_{i=1}^n \hat{y}_i = \frac{1}{n}\sum_{i=1}^n y_in1​i=1∑n​y^​i​=n1​i=1∑n​yi​

这确保了模型的预测在样本总体上不会存在系统性高估或低估,使得回归在统计意义上“对准”总体。

这三个残差性质只在回归方程中包含常数项时成立。如果强制回归直线经过原点(即不包含常数项),上述美好性质通常会失效。

投影的几何解释

最小二乘法的本质可以用线性代数中的“投影”思想来直观解释。其核心思想是:将观测向量 y\mathbf{y}y 投影到由解释变量矩阵 X\mathbf{X}X 张成的列空间上。

投影矩阵与残差制造矩阵

我们可以定义两个在回归分析中极为重要的矩阵:

  • 投影矩阵: P=X(XTX)−1XT\mathbf{P} = \mathbf{X}(\mathbf{X}^\mathrm{T}\mathbf{X})^{-1}\mathbf{X}^\mathrm{T}P=X(XTX)−1XT
  • 残差制造矩阵: M=I−P\mathbf{M} = \mathbf{I} - \mathbf{P}M=I−P

这两个矩阵具有如下的性质:

  • 对称性(Symmetry):PT=P,    MT=M\mathbf{P}^\mathrm{T} = \mathbf{P}, \;\; \mathbf{M}^\mathrm{T} = \mathbf{M}PT=P,MT=M
  • 幂等性(Idempotent):P2=P,    M2=M\mathbf{P}^2 = \mathbf{P},\;\; \mathbf{M}^2 = \mathbf{M}P2=P,M2=M
  • 正交性(Orthogonality):PM=0,    MP=0\mathbf{P}\mathbf{M} = \mathbf{0},\;\; \mathbf{M}\mathbf{P} = \mathbf{0}PM=0,MP=0

这些性质对后续的统计推断、方差分解等有很大帮助。

几何直观展示

在上述几何框架中:

  • 灰色封闭区域代表解释变量 X\mathbf{X}X 张成的列空间
  • 蓝色实线代表观测向量 y\mathbf{y}y 在该子空间内的正交投影,即拟合值 y^=Py\hat{\mathbf{y}} = \mathbf{P}\mathbf{y}y^​=Py
  • 红色虚线则为残差向量 e=y−y^\mathbf{e} = \mathbf{y} - \hat{\mathbf{y}}e=y−y^​,它与列空间正交

最小二乘法的精髓就是:在所有 X\mathbf{X}X 的线性组合中,寻找与观测 y\mathbf{y}y 最近(欧氏距离最小)的“影子”,这个影子就是预测值 y^\hat{\mathbf{y}}y^​。

平方和的分解

最小二乘法自然带来了经典的平方和三分法,即,一个观测向量可分解为回归部分与残差部分,两者平方和等于总平方和。具体公式为:

yTy=y^Ty^+eTe\mathbf{y}^\mathrm{T}\mathbf{y} = \hat{\mathbf{y}}^\mathrm{T}\hat{\mathbf{y}} + \mathbf{e}^\mathrm{T}\mathbf{e}yTy=y^​Ty^​+eTe

其中

  • yTy\mathbf{y}^\mathrm{T}\mathbf{y}yTy 称为“总平方和”(Total Sum of Squares, TSS)
  • y^Ty^\hat{\mathbf{y}}^\mathrm{T}\hat{\mathbf{y}}y^​Ty^​ 称为“回归平方和”(Regression Sum of Squares, RSS)
  • eTe\mathbf{e}^\mathrm{T}\mathbf{e}eTe 称为“残差平方和”(Residual Sum of Squares, ESS)

这正是欧氏空间中的毕达哥拉斯定理的统计实现——回归分解为正交分量,解释了为什么能用 R2R^2R2 来评价模型拟合优度:

R2=1−eTeyTyR^2 = 1 - \frac{\mathbf{e}^\mathrm{T}\mathbf{e}}{\mathbf{y}^\mathrm{T}\mathbf{y}}R2=1−yTyeTe​

分割回归与偏回归

welearn-78568898 (1).png

在实际经济分析和建模过程中,我们时常要面对这样的问题:在一个多元回归模型中,如何仅研究某个解释变量对因变量的“净效应”?这就需要用到分割回归和偏回归的理论。

问题的提出

假设我们想研究教育年限对收入的影响,但又要控制住年龄这一干扰因素。模型结构如下:

收入=β1+β2×教育年限+β3×年龄+ε\text{收入} = \beta_1 + \beta_2 \times \text{教育年限} + \beta_3 \times \text{年龄} + \varepsilon收入=β1​+β2​×教育年限+β3​×年龄+ε

如果只关心 β2\beta_2β2​,是否一定要整体估计所有参数?答案是否定的。我们可以利用分割回归理论,只专注于我们关心的变量。

正交回归定理

基本结论:如果两个解释变量 X1X_1X1​ 和 X2X_2X2​ 满足正交,即

X1TX2=0X_1^\mathrm{T} X_2 = 0X1T​X2​=0

那么对 yyy 进行多元回归与分别对 X1X_1X1​、X2X_2X2​ 做简单回归,二者所得到的回归系数完全一致。

经济直觉:当解释变量互不相关时,某个变量对因变量的边际效应不会受到其他变量影响,和一元回归一致。

Frisch-Waugh-Lovell(FWL)定理

这是回归理论最核心的定理之一,为我们“分离”出变量的净效应提供了理论与操作基础。

定理内容: 在 yyy 关于 X1X_1X1​ 和 X2X_2X2​ 的多元回归中,X2X_2X2​ 的系数可通过以下两步获得:

  1. 将 yyy 对 X1X_1X1​ 回归,取残差(记为 y∗y^*y∗);将 X2X_2X2​ 对 X1X_1X1​ 回归,也取残差(记为 X2∗X_2^*X2∗​)
  2. 用 y∗y^*y∗ 对 X2∗X_2^*X2∗​ 做简单回归,得到的系数就是原多元回归中 X2X_2X2​ 的回归系数。

公式化表述为:

步骤一:y∗=M1y,X2∗=M1X2\text{步骤一:}\quad y^* = \mathbf{M}_1 y, \quad X_2^* = \mathbf{M}_1 X_2步骤一:y∗=M1​y,X2∗​=M1​X2​ 步骤二:y∗=γX2∗+误差⇒γ=β2\text{步骤二:}\quad\quad y^* = \gamma X_2^* + \text{误差} \Rightarrow \gamma = \beta_2步骤二:y∗=γX2∗​+误差⇒γ=β2​

教育收益率

以中国数据实际分析为例:

第一步 (控制年龄影响):

  • 先将“收入”对“年龄”回归,残差即为剔除年龄后收入的部分
  • 再将“教育年限”对“年龄”回归,残差为剔除年龄后的教育年限

第二步 (检验教育纯效应):

  • 用上述两个残差做简单回归,得到的系数就是控制年龄后,教育对收入的净影响(β2\beta_2β2​ 的真实意义)

FWL过程的优点是:它将复杂的多元回归拆解为可解释性极强的多个步骤,将经济现象分解得一目了然。

均值偏差(中心化)形式的回归

FWL定理在包含常数项时有一个极为简洁漂亮的推论:

推论: 在有常数项的多元回归中,斜率系数等价于用均值偏差数据(所有变量减去各自均值)作无常数回归所获得的系数。

即,将数据中心化后(减去均值)进行回归,所得的 b\mathbf{b}b 与原始模型中的斜率完全一致。

步骤如下:

所有变量(包括因变量、各解释变量)均变换为 xi−xˉx_i - \bar{x}xi​−xˉ 的形式
用中心化后的变量回归(无需加常数项)
得到的斜率即等于标准多元回归的斜率

这一结论进一步强调了回归系数所刻画的是“其他条件保持不变”时某一解释变量的边际效应,是理解经济变量之间“净关系”的理论基础。


偏回归系数与偏相关系数

偏回归系数的经济含义

在多元回归模型中,一个核心问题是:“当控制了其他条件时,某个解释变量对因变量的真实影响有多大?” 这实际上是在问:“ceteris paribus(其他条件不变)下,变量zzz的边际效应是多少?” 这正是偏回归系数(Partial Regression Coefficient)所要回答的问题。

偏回归系数反映了当其他所有变量保持恒定时,某一个解释变量的变化会引起因变量的变化幅度。以回归模型

y=β0+β1x1+β2x2+⋯+βKxK+εy = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_K x_K + \varepsilony=β0​+β1​x1​+β2​x2​+⋯+βK​xK​+ε

为例,βj\beta_jβj​就是xjx_jxj​对yyy的偏回归系数,表示在控制了其余xxx之后,xjx_jxj​每变动一个单位,yyy的期望变动βj\beta_jβj​个单位。

经济学中著名的“ceteris paribus”分析就是用偏回归思想:比如在研究教育对收入的影响时,我们希望控制年龄、性别、地区等其他因素,只看教育这一个因素的“净贡献”——即β教育\beta_{\text{教育}}β教育​。

偏回归系数的“偏”实际是“部分”的意思,即描述当所有其他解释变量不变时,单个变量的“部分效应”,而非“有偏”或“偏差”。

偏相关系数的计算方法与理解

偏相关系数(Partial Correlation Coefficient) 衡量的是“在控制了其他变量影响之后,两个变量之间还剩下多少相关性”,即去除了其他因素“净化”出来后的线性相关程度。

假设我们关注yyy与zzz的关系,并希望“控制”住变量XXX(可能是一组变量),则具体计算步骤如下:

把yyy对XXX做回归,得到残差y∗y^\asty∗(也就是yyy去除了XXX影响后的部分)
把zzz对XXX做回归,得到残差z∗z^\astz∗(同理,zzz净化后)
计算y∗y^\asty∗与z∗z^\astz∗的简单相关系数,记为ryz⋅Xr_{yz\cdot X}ryz⋅X​

也可以用公式写为:

ryz⋅X=Cov⁡(y∗,z∗)σy∗σz∗r_{yz\cdot X} = \frac{\operatorname{Cov}(y^\ast, z^\ast)}{\sigma_{y^\ast} \sigma_{z^\ast}}ryz⋅X​=σy∗​σz∗​Cov(y∗,z∗)​

这里y∗y^\asty∗与z∗z^\astz∗就是剔除了控制变量后的“净量”,求它们的相关性即可。

这种方法可以广泛推广到多个变量的控制、甚至分层分析,是理解“真实相关性”与“表面相关性”区别的基础工具。

偏相关系数、ttt统计量与R2R^2R2的关系

在多元回归分析中,偏相关系数与ttt统计量之间有着直接联系,公式表达如下:

ryz⋅X2=tz2tz2+dfr^2_{y z \cdot X} = \frac{t_z^2}{t_z^2 + \text{df}}ryz⋅X2​=tz2​+dftz2​​

其中:

  • ryz⋅X2r^2_{y z \cdot X}ryz⋅X2​:在控制XXX之后,yyy和zzz的偏相关系数的平方;
  • tzt_ztz​:多元回归中zzz对应的ttt统计量;
  • df\text{df}df:自由度,通常为n−K−1n-K-1n−K−1,KKK为解释变量的个数,nnn为样本容量。

由此可以倒推,如果知道ttt统计量和自由度,即可便捷算出yyy和zzz在给定其他变量后的相关性大小。这一公式连接了显著性检验与相关性分析,具有重要应用价值。

投资方程的相关性

下面我们用一个实际的回归例子来体会“简单相关系数”与“偏相关系数”的区别,以及为什么偏回归和多元回归极其重要:

变量简单相关系数偏相关系数解释
时间趋势0.7496-0.9360控制其他因素后,时间趋势与投资负相关
GDP0.86320.9680GDP与投资强正相关
利率0.5871-0.5167利率实际上抑制投资
通胀率0.4777-0.0221通胀对投资影响很小

注意时间趋势的例子:简单相关系数=0.7496=0.7496=0.7496,偏相关系数=−0.9360=-0.9360=−0.9360。表面上看“投资随时间增加”,实际上真正的净关系是“控制了GDP等因素后,纯粹的时间趋势对投资竟然是强烈负向作用”。这正是多元回归模型和偏回归系数的威力:揭示变量之间的真实净联系。

这种现象是多数实际经济、社会、医学等数据分析场景中的常态:表面关系与净关系可能完全相反,不做“净化”分析,结论极易误导。


拟合优度与方差分析

R²的基本定义与公式

拟合优度(Goodness-of-fit)衡量回归模型对观测数据变异的解释能力。最常用的指标是决定系数R2R^2R2(R-squared),给我们这样一个直观问题的答案:“模型解释了因变量总变异的百分之多少?”

标准R2R^2R2公式为:

R2=回归平方和总平方和=SSRSST=1−SSESSTR^2 = \frac{\text{回归平方和}}{\text{总平方和}} = \frac{SSR}{SST} = 1 - \frac{SSE}{SST}R2=总平方和回归平方和​=SSTSSR​=1−SSTSSE​

它们定义如下:

  • 总平方和(全变异):SST=∑i=1n(yi−yˉ)2SST = \sum_{i=1}^n (y_i - \bar{y})^2SST=∑i=1n​(yi​−yˉ​)2
  • 回归平方和(模型解释变异):SSR=∑i=1n(y^i−yˉ)2SSR = \sum_{i=1}^n (\hat{y}_i - \bar{y})^2SSR=∑i=1n​(y^​i​−yˉ​)2
  • 残差平方和(误差):SSE=∑i=1n(yi−y^i)2SSE = \sum_{i=1}^n (y_i - \hat{y}_i)^2SSE=∑i=1n​(yi​−y^​i​)2

所以R2R^2R2取值[0,1][0,1][0,1],数值越大表示模型解释能力越强。

R²的直观解释

假设我们分析中国各省GDPGDPGDP差异成因:

若R2=0.75R^2 = 0.75R2=0.75,代表:

  • 模型解释了75%75\%75%的GDPGDPGDP差异(归因于回归方程中的解释变量)
  • 还有25%25\%25%差异无法解释(残差、噪音或遗漏变量影响)
  • 通常认为0.750.750.75是一个很高的拟合优度

方差分析表(ANOVA Table)

标准回归模型常配合方差分析表总结各项变异分布:

变异来源自由度平方和均方含义
回归K−1K-1K−1SSRSSRSSRMSR=SSR/(K−1)MSR=SSR/(K-1)MSR=SSR/(K−1)模型所能解释的变异
残差n−Kn-Kn−KSSESSESSEMSE=SSE/(n−K)MSE=SSE/(n-K)MSE=SSE/(n−K)难以解释的噪音变异
总计n−1n-1n−1SSTSSTSSTMST=SST/(n−1)MST=SST/(n-1)MST=SST/(n−1)因变量的总变异

MSRMSRMSR常用于构造FFF检验,检验模型整体显著性。

为什么要引入调整R2R^2R2

普通R2R^2R2有个“软肋”:加变量R2R^2R2永不下降,哪怕新变量毫无用处!这如同学生盲目扩充复习科目,最终拖后腿。

所以引入“调整R2R^2R2”Rˉ2\bar{R}^2Rˉ2(AdjustedR2R^2R2),弥补R2R^2R2惩罚复杂性不足。其定义为:

Rˉ2=1−SSEn−KSSTn−1\bar{R}^2 = 1 - \frac{\frac{SSE}{n-K}}{\frac{SST}{n-1}}Rˉ2=1−n−1SST​n−KSSE​​

调整后的特点:

  • 无关变量会降低Rˉ2\bar{R}^2Rˉ2
  • Rˉ2\bar{R}^2Rˉ2不一定比R2R^2R2大,有时可能为负,提醒模型几乎不能拟合数据
  • 在模型比较与特征选择等任务中,Rˉ2\bar{R}^2Rˉ2价值更高

调整R2R^2R2不但可能小于R2R^2R2,且在模型极差时甚至为负,这提示模型几乎是无用的。

R2R^2R2的常见误区与陷阱

陷阱一:不同数据类型R2R^2R2不可简单比较

如时间序列数据R2R^2R2通常远高于截面数据,这不是模型更好,只是反映数据自相关性。不要简单迷信“高R2R^2R2”。

陷阱二:不同类型回归R2R^2R2不可比

如线性模型y=β0+β1x+εy = \beta_0 + \beta_1 x + \varepsilony=β0​+β1​x+ε与对数线性ln⁡y=β0+β1x+ε\ln y = \beta_0 + \beta_1 x + \varepsilonlny=β0​+β1​x+ε,不可直接比R2R^2R2,因因变量本身已变。

陷阱三:没有常数项的模型R2R^2R2偏大或异常

模型若不包含截距项(常数),R2R^2R2的计算原理就会失效,甚至可能>1>1>1或为负,则不能正常使用,应警惕数据和模型结构是否设计合理。

R2R^2R2只描述线性相关程度。哪怕两个变量存在完美的非线性关系,线性回归的R2R^2R2也可能极低甚至为000。

不同应用下R2R^2R2的典型范围与意义

不同领域、不同数据结构R2R^2R2的合理区间差异极大:

数据类型典型R2R^2R2范围说明
宏观经济时间序列0.80.80.8-0.950.950.95多为趋势强+周期性数据
微观截面数据0.10.10.1-0.50.50.5个体异质性大,体系复杂
面板数据(微观+时间)0.30.30.3-0.70.70.7朴素规律与个体差异混合
实验性或控制组数据0.60.60.6-0.90.90.9条件严格、噪音较少

R2R^2R2只是评估的一个维度。有时即便R2R^2R2较低,只要每个系数都有明确的经济意义与统计显著性,这个模型依然很有价值。反之,R2R^2R2极高但系数荒谬、难以解释时,模型其实毫无实际用处。


线性变换回归

welearn-44477494.webp

为什么要做变量变换?

在实际经济分析与回归建模过程中,经常需要对变量进行线性变换。这些变换主要出于以下几类动因:

  • 单位转换:比如将 GDP 从“亿元”转换为“万亿元”,或者将时长从“小时”换算为“分钟”,仅仅是刻度变化,变量本身的含义不变。
  • 理论需要:有些经济理论要求我们用衍生变量,例如根据“宽度”“高度”得到“面积”与“长宽比”等组合特征。此时新变量为原变量的线性组合。
  • 数据处理:常见如对变量做标准化(z-score),消除单位差异,使结果可比。

变量变换不仅仅是代数技巧,也关乎经济解释和理论本质。下面我们以艺术品价格案例说明其内在联系。

艺术品拍卖定价

如果我们希望用回归模型分析莫奈画作的拍卖价格。存在两套理论思路:

理论一:尺寸主导假设

ln⁡(价格)=β1+β2ln⁡(宽度)+β3ln⁡(高度)+ε\ln(\mathrm{价格}) = \beta_1 + \beta_2\ln(\mathrm{宽度}) + \beta_3\ln(\mathrm{高度}) + \varepsilonln(价格)=β1​+β2​ln(宽度)+β3​ln(高度)+ε

理论二:面积与比例论

ln⁡(价格)=γ1+γ2ln⁡(面积)+γ3ln⁡(长宽比)+u\ln(\mathrm{价格}) = \gamma_1 + \gamma_2\ln(\mathrm{面积}) + \gamma_3\ln(\mathrm{长宽比}) + uln(价格)=γ1​+γ2​ln(面积)+γ3​ln(长宽比)+u

其中:

  • 面积:面积=宽度×高度\mathrm{面积} = \mathrm{宽度} \times \mathrm{高度}面积=宽度×高度
  • 长宽比:长宽比=宽度/高度\mathrm{长宽比} = \mathrm{宽度} / \mathrm{高度}长宽比=宽度/高度

注意到:

ln⁡(面积)=ln⁡(宽度)+ln⁡(高度),ln⁡(长宽比)=ln⁡(宽度)−ln⁡(高度)\ln(\mathrm{面积}) = \ln(\mathrm{宽度}) + \ln(\mathrm{高度}), \qquad \ln(\mathrm{长宽比}) = \ln(\mathrm{宽度}) - \ln(\mathrm{高度})ln(面积)=ln(宽度)+ln(高度),ln(长宽比)=ln(宽度)−ln(高度)

所以这两组解释变量本质上是原变量的线性变换。

变量线性变换的矩阵表示

我们可以将上述两个理论之间的“变量变换”写成矩阵形式。设

Z=[z1z2z3]=P[x1x2x3]=PXZ = \begin{bmatrix} z_1 \\ z_2 \\ z_3 \end{bmatrix} = P \begin{bmatrix} x_1 \\ x_2 \\ x_3 \end{bmatrix} = PXZ=​z1​z2​z3​​​=P​x1​x2​x3​​​=PX

其中:

  • x1x_1x1​:常数项,x2x_2x2​:ln⁡(宽度)\ln(\mathrm{宽度})ln(宽度),x3x_3x3​:ln⁡(高度)\ln(\mathrm{高度})ln(高度)
  • z1=x1z_1 = x_1z1​=x1​,z2=x2+x3z_2 = x_2 + x_3z2​=x2​+x3​,z3=x2−x3z_3 = x_2 - x_3z3​=x2​−x3​

变换矩阵为

P=[10001101−1]P = \begin{bmatrix} 1 & 0 & 0 \\ 0 & 1 & 1 \\ 0 & 1 & -1 \end{bmatrix}P=​100​011​01−1​​

用表格再梳理:

新变量原变量组合变换关系
常数项常数项z1=x1z_1 = x_1z1​=x1​
ln⁡(面积)\ln(\mathrm{面积})ln(面积)ln⁡(宽度)+ln⁡(高度)\ln(\mathrm{宽度}) + \ln(\mathrm{高度})ln(宽度)+ln(高度)z2=x2+x3z_2 = x_2 + x_3z2​=x2​+x3​
ln⁡(长宽比)\ln(\mathrm{长宽比})ln(长宽比)ln⁡(宽度)−ln⁡(高度)\ln(\mathrm{宽度}) - \ln(\mathrm{高度})ln(宽度)−ln(高度)z3=x2−x3z_3 = x_2 - x_3z3​=x2​−x3​

线性变换回归定理

定理:
假设有原始回归

y=Xβ+εy = X\beta + \varepsilony=Xβ+ε

以及变换变量回归

y=Zγ+u,其中 Z=XPy = Z\gamma + u, \quad \text{其中}\ Z = XPy=Zγ+u,其中 Z=XP

且 PPP 为非奇异(即可逆)矩阵。则有:

  1. 回归系数变换关系 γ=P−1β\gamma = P^{-1}\betaγ=P−1β
  2. 两模型的R2R^2R2完全一致 RX2=RZ2R^2_{X} = R^2_{Z}RX2​=RZ2​
  3. 残差向量完全一致 ε^=u^\hat{\varepsilon} = \hat{u}ε^=u^

也就是说,任何线性可逆的变量变换不会改变拟合优度和残差,只会线性变换系数解释本身。

线性变换定理的实际应用

该定理赋予回归分析巨大的灵活性,带来诸多实际好处:

应用一:单位变换与系数缩放

若某解释变量 x2x_2x2​ 由“万元”改为“元”,则其数值变为原来的 10,00010,00010,000 倍。此时,无需重新回归,只要把对应回归系数β2\beta_2β2​除以10,00010,00010,000即可:

原模型:  y=3 (万元)×x2+…变换后:  y=0.0003 (元)×x2+…\begin{align*} \text{原模型:}\,\ & y = 3\, \text{(万元)} \times x_2 + \ldots \\ \text{变换后:}\,\ & y = 0.0003\, \text{(元)} \times x_2 + \ldots \end{align*}原模型: 变换后: ​y=3(万元)×x2​+…y=0.0003(元)×x2​+…​

应用二:理论模型等价性检验

对于上述莫奈画作的两种理论,两套解释变量通过PPP线性变换可互相推出。这意味着它们对数据的解释力完全等价,只是经济解释侧重点不同。

应用三:标准化回归的便利

分析多元数据时,变量的尺度不同,标准化即对每个变量减去均值再除以标准差

zi=xi−x‾istd(xi)z_i = \frac{x_i - \overline{x}_i}{\mathrm{std}(x_i)}zi​=std(xi​)xi​−xi​​

标准化回归恰好是对原回归变量做线性变换。利用线性变换定理,标准化模型的系数可以直接由原始模型系数与标准差计算得出,而R2R^2R2不变,残差分布也一致。因此变量标准化便于比较不同自变量的重要性,而不会影响整体拟合优度。

线性变换定理的伟大之处在于,它明确告诉我们:许多看似不同的回归模型在实质上是等价的。我们可以灵活选择最便于理论阐释、经济解释或数据计算的表达式,但拟合结果及结论本质不会改变。这极大简化了复杂模型的比较和变量构建,助力高效的经济计量分析。


要点总结

核心概念回顾

概念核心思想实际应用
最小二乘法最小化残差平方和所有线性回归的基础
正规方程XᵀXb = Xᵀy回归系数的计算公式
投影解释将y投影到X的列空间理解拟合值和残差的关系
FWL定理偏回归系数的分步计算理解“其他条件不变”的含义
R²和调整R²模型解释能力的衡量模型选择和评价
变换定理线性变换不改变本质关系处理单位变换和模型等价性

经济学直觉

最小二乘法不仅是数学分析的工具,更深刻地体现了经济学中的核心思维。首先,最小二乘法中的偏回归系数揭示了“边际分析”的思想——每一个系数都在度量单个解释变量对因变量的边际影响,这与经济学对边际效应的重视不谋而合。同时,最小二乘解也是“均衡思想”的具体体现:通过最小化残差平方和,模型在所有可能的解中达到了一种“总成本”最小的均衡状态。在诸多无偏估计量中,最小二乘估计量的“效率”也是最高的,它拥有最小的方差。此外,最小二乘法还是一种强有力的信息提取手段,能够从噪音和扰动中提炼出数据背后的真实信号。

最小二乘法的真正意义在于,它为我们建立了一套严谨的实证框架,使经济理论与实际数据能够紧密结合,从而推动经济学从思辨走向科学的实证研究。

  • 最小二乘回归的基本思想
    • 残差的几何意义
  • 最小二乘系数向量的推导
    • 优化目标的设定
    • 矩阵形式的表达
    • 求解过程
    • 二阶条件验证
    • 投资方程案例
    • 三变量回归——手工推导正规方程
  • 最小二乘解的重要性质
    • 残差的三个基本特性
      • 特性一:残差之和为零
      • 特性二:回归超平面必然通过均值点
      • 特性三:拟合值的均值等于实际值的均值
    • 投影的几何解释
      • 投影矩阵与残差制造矩阵
      • 几何直观展示
    • 平方和的分解
  • 分割回归与偏回归
    • 问题的提出
    • 正交回归定理
    • Frisch-Waugh-Lovell(FWL)定理
    • 教育收益率
    • 均值偏差(中心化)形式的回归
  • 偏回归系数与偏相关系数
    • 偏回归系数的经济含义
    • 偏相关系数的计算方法与理解
    • 偏相关系数、$t$统计量与$R^2$的关系
    • 投资方程的相关性
  • 拟合优度与方差分析
    • R²的基本定义与公式
    • R²的直观解释
    • 方差分析表(ANOVA Table)
    • 为什么要引入调整$R^2$
    • $R^2$的常见误区与陷阱
      • 陷阱一:不同数据类型$R^2$不可简单比较
      • 陷阱二:不同类型回归$R^2$不可比
      • 陷阱三:没有常数项的模型$R^2$偏大或异常
    • 不同应用下$R^2$的典型范围与意义
  • 线性变换回归
    • 为什么要做变量变换?
    • 艺术品拍卖定价
    • 变量线性变换的矩阵表示
    • 线性变换回归定理
    • 线性变换定理的实际应用
      • 应用一:单位变换与系数缩放
      • 应用二:理论模型等价性检验
      • 应用三:标准化回归的便利
  • 要点总结
    • 核心概念回顾
    • 经济学直觉

目录

  • 最小二乘回归的基本思想
    • 残差的几何意义
  • 最小二乘系数向量的推导
    • 优化目标的设定
    • 矩阵形式的表达
    • 求解过程
    • 二阶条件验证
    • 投资方程案例
    • 三变量回归——手工推导正规方程
  • 最小二乘解的重要性质
    • 残差的三个基本特性
      • 特性一:残差之和为零
      • 特性二:回归超平面必然通过均值点
      • 特性三:拟合值的均值等于实际值的均值
    • 投影的几何解释
      • 投影矩阵与残差制造矩阵
      • 几何直观展示
    • 平方和的分解
  • 分割回归与偏回归
    • 问题的提出
    • 正交回归定理
    • Frisch-Waugh-Lovell(FWL)定理
    • 教育收益率
    • 均值偏差(中心化)形式的回归
  • 偏回归系数与偏相关系数
    • 偏回归系数的经济含义
    • 偏相关系数的计算方法与理解
    • 偏相关系数、$t$统计量与$R^2$的关系
    • 投资方程的相关性
  • 拟合优度与方差分析
    • R²的基本定义与公式
    • R²的直观解释
    • 方差分析表(ANOVA Table)
    • 为什么要引入调整$R^2$
    • $R^2$的常见误区与陷阱
      • 陷阱一:不同数据类型$R^2$不可简单比较
      • 陷阱二:不同类型回归$R^2$不可比
      • 陷阱三:没有常数项的模型$R^2$偏大或异常
    • 不同应用下$R^2$的典型范围与意义
  • 线性变换回归
    • 为什么要做变量变换?
    • 艺术品拍卖定价
    • 变量线性变换的矩阵表示
    • 线性变换回归定理
    • 线性变换定理的实际应用
      • 应用一:单位变换与系数缩放
      • 应用二:理论模型等价性检验
      • 应用三:标准化回归的便利
  • 要点总结
    • 核心概念回顾
    • 经济学直觉
自在学

© 2025 自在学,保留所有权利。

公网安备湘公网安备43020302000292号 | 湘ICP备2025148919号-1

关于我们隐私政策使用条款

© 2025 自在学,保留所有权利。

公网安备湘公网安备43020302000292号湘ICP备2025148919号-1