
在现实世界中,我们经常想要了解两个变量之间的数量关系。例如,教育年限是否会显著影响个人的收入水平,或者房屋面积的变化会如何影响房价。除了这些常见的经济学问题,类似的分析还广泛应用于农业、医学、社会科学等领域,比如探究肥料用量对农作物产量的影响,或者锻炼时间对身体健康指标的作用。
简单回归模型为我们提供了一个强有力的统计工具,能够帮助我们定量分析两个变量之间的线性关系。通过建立数学模型,我们不仅可以描述变量之间的相关性,还能进一步推断因果关系,并对未来的观测值进行预测。
需要注意的是,现实中的变量关系往往受到多种因素的共同影响。简单回归模型虽然只包含一个解释变量,但它能够帮助我们在控制其他因素不变的前提下,考察某一特定变量对结果变量的边际影响。这种分析方法为我们理解复杂经济现象提供了基础框架,也是后续多元回归分析的起点。
假如我们正在研究中国城市中房屋面积与房价的关系,我们知道房价不仅仅取决于面积,还受到位置、装修、学区等多种因素影响。简单回归模型正是为了处理这种复杂性而设计的。
我们可以用一个数学表达式来描述这种关系:
在这个表达式中, 代表我们想要解释的变量(比如房价), 代表解释变量(比如房屋面积),而 则代表所有其他影响因素的综合效应。
这个模型被称为“简单”回归模型,不是因为它容易理解,而是因为它只包含一个解释变量。在实际应用中,这个模型虽然看似简单,却能够帮助我们理解复杂现象的基本规律。
在经济学分析中,不同的术语用来描述模型中的变量,这些术语在不同的研究领域中会有所不同:

考虑中国某地区的小麦种植情况。农业专家想要研究化肥使用量对小麦产量的影响:
这里, 测量的是在其他条件不变的情况下,增加一单位化肥对小麦产量的影响。而 包含了土壤质量、降雨量、病虫害等其他影响产量的因素。
从图中可以看出,尽管存在随机因素的影响,化肥用量与小麦产量之间仍然表现出明显的正向线性关系。
在研究教育对收入的影响时,我们可以建立这样的模型:
如果工资以每小时元计算,教育年限以年为单位,那么 就衡量了多接受一年教育对小时工资的影响。误差项 包含了工作经验、天赋能力、家庭背景等其他影响工资的因素。
线性关系的假设意味着教育的边际效应是恒定的:无论是从8年教育增加到9年,还是从15年增加到16年,对工资的影响都是相同的 。
要让简单回归模型发挥作用,我们需要做出一个关键假设:误差项 的期望值为零,并且不依赖于 的取值。用数学语言表达就是:
这个假设的含义是,对于 的任何给定值,所有未观察到的因素的平均影响为零。
在肥料使用的例子中,如果肥料的使用量与其他因素(如土壤质量)无关,那么这个假设就成立。也就是说,高质量土地和低质量土地上使用的肥料量在平均意义上是相同的。
但在教育与工资的例子中,这个假设可能不成立。如果天赋较高的人通常会选择接受更多教育,那么教育年限就与误差项中的能力因素相关。这会导致我们无法准确估计教育的真正效应。
当我们的基本假设成立时,模型给我们提供了一个重要的解释:
这个表达式被称为总体回归函数(Population Regression Function, PRF)。它告诉我们,给定 的任何特定值, 的条件期望值是 的线性函数。
以高中GPA与大学GPA的关系为例,假设我们知道:
这意味着,所有高中GPA为3.6的学生,他们大学GPA的平均值为:。
这并不意味着每个高中GPA为3.6的学生大学GPA都是3.3。有些学生会高于3.3,有些会低于3.3。这个函数给出的是这群学生大学GPA的平均水平。
通过这种方式,我们可以将每个观察值分解为两个部分:系统性部分()和随机性部分()。系统性部分是可以由 解释的 的变化,而随机性部分是无法由 解释的变化。
在下一部分,我们将学习如何使用实际数据来估计这些未知参数 和 。
现在我们面临一个实际问题:已知模型的理论形式,但不知道具体的参数值。我们需要从收集到的样本数据中估计 和 。
假设我们收集了 个观测值:。每个观测值都满足:
关键问题是:如何选择 和 的估计值,使得我们的模型能够最好地拟合观察到的数据?
最小二乘法的核心思想来源于一个简单的观察:如果我们的模型是正确的,那么预测值与实际值之间的差距应该尽可能小。
对于任意给定的估计值,我们可以计算每个观测值的拟合值和残差。
拟合值表示我们对观测值的预测,残差表示预测值与实际值的差异。
最小二乘法选择使残差平方和最小的参数估计值:
最小二乘法通过最小化残差平方和来选择最优参数估计值。
为什么选择平方和而不是绝对值?平方和有几个优点:第一,它对大的偏差给予更重的惩罚;第二,它在数学上更容易处理,可以用微积分方法求解;第三,在统计理论中有良好的性质。
通过微积分中的最优化方法,我们可以得到最小二乘估计量的显式公式:
斜率估计量等于x和y的样本协方差除以x的样本方差。截距估计量等于y的样本均值减去斜率估计量乘以x的样本均值。
其中 和 分别是 和 的样本均值。
从公式可以看出,斜率估计量实际上就是x和y的样本协方差除以x的样本方差。这意味着如果x和y正相关,斜率估计量为正;如果负相关,斜率估计量为负。

假设我们收集了209位CEO的数据,研究年薪(以万元为单位)与公司净资产收益率(ROE,以百分比表示)的关系:
使用最小二乘法,我们得到估计结果:
这个结果告诉我们,当ROE为0时,预测年薪为96.3万元;ROE每增加1个百分点,年薪预计增加1.85万元。
从散点图可以看出,虽然存在相当大的离散性,但CEO薪酬与公司业绩之间确实存在正向关系。
使用526个工人的数据,研究小时工资(元)与教育年限的关系(数据基于某年调查,已调整为当前价格水平):
这意味着每多接受一年教育,小时工资预计增加0.54元。因此,四年大学教育比高中教育的小时工资高出 元。
需要注意的是,截距为负值(-0.90)在这里并不合理,因为它暗示没有受过教育的人工资为负。这提醒我们,在教育水平极低的范围内,线性模型可能不够准确。
分析173个选区的数据,研究候选人A的得票百分比与其支出占总支出百分比的关系:
结果表明,如果候选人A的支出占比增加1个百分点,其得票率预计增加约0.464个百分点。当支出占比为50%时,预测得票率约为50%。
在计量经济学中,我们经常使用这样的表述:“将 对 进行回归”,这意味着 是被解释变量(因变量), 是解释变量(自变量),并且我们估计包含截距项的完整模型。
除非另有说明,我们总是同时估计截距和斜率参数。
一旦我们获得了参数估计值,就可以计算每个观察值的拟合值和残差。这些量不仅帮助我们理解模型的表现,还揭示了最小二乘法的一些重要性质。
对于每个观察值,我们可以定义其拟合值和残差。拟合值代表我们的模型对该观察值的预测,而残差则测量预测值与实际值之间的差距。
让我们回到CEO薪酬的例子。下表显示了前10位CEO的实际数据、拟合值和残差:
从表中可以看出,前四位CEO的实际薪酬都低于模型预测值(负残差),而第五位CEO的实际薪酬高于预测值(正残差)。
残差的正负告诉我们模型是高估还是低估了某个观察值。正残差意味着实际值高于预测值,负残差则相反。理想情况下,残差应该随机分布在零线附近。
最小二乘法具有几个重要的代数性质,这些性质对任何数据集都成立:
所有OLS残差的和(以及平均值)总是等于零:
这个性质直接来源于最小二乘法的第一个条件。它意味着正残差和负残差在总体上相互抵消。
样本中解释变量与OLS残差的协方差为零:
这个性质确保了我们已经充分利用了 和 之间的线性关系。
样本均值点 总是位于OLS回归线上。换句话说,如果我们将 代入回归方程,得到的预测值正好是 。
最小二乘法的一个重要贡献是将因变量的总变差分解为两部分:能够被模型解释的部分和不能解释的部分。
我们定义三个重要的平方和:
这三个平方和之间存在重要关系:
这个等式告诉我们, 的总变差可以分为两部分:模型能够解释的变差(SSE)和模型无法解释的变差(SSR)。
为了衡量模型的解释能力,我们定义决定系数,也称为R平方:
R平方的含义和解释:
R平方表示模型解释的变差占总变差的比例。R平方越接近1,说明模型的解释能力越强;越接近0,说明模型的解释能力越弱。
例子1:CEO薪酬回归
在我们的CEO薪酬例子中:
这意味着ROE仅能解释CEO薪酬变差的1.3%,剩余的98.7%由其他因素解释。这个结果并不意外,因为CEO薪酬受到很多因素影响,包括公司规模、行业特点、个人能力等。
例子2:选举支出回归
在选举支出的例子中:
这表明候选人的支出占比能够解释得票率变差的85.6%,说明竞选支出是影响选举结果的重要因素。
低R平方并不意味着回归结果无用。在社会科学研究中,由于人类行为的复杂性,低R平方很常见。关键在于估计的参数是否在经济学上合理,以及是否满足统计假设。
R平方虽然是评估模型拟合程度的有用指标,但也有其局限性。高R平方不一定意味着模型是正确的,低R平方也不一定意味着模型是错误的。在经济学分析中,我们更关心参数估计是否反映了真实的因果关系,而不仅仅是拟合程度。

在实际研究中,我们经常需要改变变量的计量单位。比如,收入可能用元或万元表示,距离可能用米或公里表示。理解这种变化如何影响我们的估计结果至关重要。
假设我们最初的CEO薪酬回归中,年薪以万元为单位:
如果我们改用元作为单位(即乘以10,000),新的回归方程变为:
当因变量乘以常数c时,截距和斜率估计值也同时乘以c。这保证了经济解释的一致性:ROE增加1个百分点,年薪增加18,500元,与之前“增加1.85万元”的结论完全一致。
现在考虑将ROE从百分比形式改为小数形式。原来ROE=23表示23%,现在用0.23表示。新的回归方程变为:
注意斜率系数变为原来的100倍,但经济含义保持不变:ROE增加0.01(即1个百分点),年薪增加 万元。
无论我们如何改变变量的计量单位,R平方都保持不变。这符合直觉:模型的解释能力不应该依赖于我们选择用什么单位来测量变量。
现实中的许多经济关系并非线性。对数变换是处理非线性关系的一个强有力工具,它能够帮助我们建立更符合经济理论的模型。
在研究教育对工资影响时,线性模型假设教育的边际收益是恒定的。但更合理的假设可能是:每增加一年教育,工资按固定比例增长。
我们可以建立这样的模型:
在这个模型中, 的解释变为:教育年限每增加一年,工资增长约 个百分点。
实际案例: 使用中国某地区工人数据,我们得到:
工资的对数回归结果:ln(工资) = 0.584 + 0.083 × 教育年限
这意味着每多接受一年教育,工资预期增长8.3%。这种百分比效应的解释在经济学中更为常见,因为它反映了教育投资的“回报率”概念。
对数形式的另一个优点是它隐含了报酬递增的假设:虽然教育的百分比效应恒定,但绝对效应随着教育水平提高而增加。对于高收入者,8.3%的增长意味着更大的绝对增长。
当我们想要建立两个变量之间的恒定弹性关系时,对数-对数模型是理想选择。
CEO薪酬与公司规模的例子:
使用实际数据估计得到:
对数-对数回归结果:log(年薪) = 4.82 + 0.257 × log(销售收入)
在这个模型中, 直接给出了薪酬对销售收入的弹性:销售收入增长1%,CEO年薪预期增长0.257%。
不同的函数形式适用于不同的经济关系。下表总结了主要的函数形式及其解释:
收入与消费关系: 对于收入与消费的关系,对数-对数模型可能更合适,因为经济理论预测消费对收入的弹性相对稳定。
房价与面积关系: 房价与面积的关系可能适合使用对数-水平模型,因为面积每增加一平米,房价的百分比增长可能相对稳定。
广告支出与销售额: 广告支出通常表现出边际效应递减的特点,对数-对数模型能够很好地捕捉这种关系。
选择函数形式时,应该结合经济理论、数据的分布特征以及模型的统计表现。没有一种形式在所有情况下都是最优的。
虽然我们称之为“线性”回归,但这里的“线性”指的是参数的线性,而不是变量的线性。只要模型形式为:
其中 和 可以是原始变量的任何变换(如对数、平方根等),就仍然属于线性回归模型的范畴。
这种灵活性使得简单线性回归能够处理各种复杂的非线性经济关系,为经济分析提供了强大的工具。
到目前为止,我们讨论的都是给定样本下OLS的代数性质。但在实际应用中,我们更关心的是:如果我们重复抽样,OLS估计量的表现如何?这涉及到OLS估计量的统计性质。
例如,我们从一个总体中重复抽取1000个样本,每次都计算OLS估计量。如果这1000个估计值的平均值等于真实的总体参数值,我们就说这个估计量是无偏的。
无偏性并不意味着任何一次抽样都能得到精确的参数值,而是说在大量重复抽样中,估计值平均而言等于真实值。这就像射箭:无偏的射手可能不是每箭都正中靶心,但多次射击的平均位置就在靶心。
为了确保OLS估计量的无偏性,我们需要以下四个基本假设:
假设1:线性关系
总体模型必须是参数线性的:
假设2:随机抽样
我们的数据来自随机抽样:
假设3:样本变差
解释变量在样本中必须有变差,即不是所有的都相等。
假设4:零条件均值
这是最关键的假设:
第四个假设是确保无偏性的核心。它要求误差项的期望值不依赖于解释变量的取值。

例子:学校营养午餐与学生成绩
假设我们研究学校营养午餐覆盖率对学生数学成绩的影响:
如果营养午餐主要在贫困地区推广,而贫困地区的学生往往面临更多学习困难(这些困难包含在误差项中),那么午餐覆盖率与误差项就会相关,违反了零条件均值假设。
在这种情况下,我们可能会错误地认为营养午餐降低了学生成绩,而实际上这可能只是反映了贫困地区学生面临的其他困难。
同方差性假设要求误差项的方差在所有值上都相同:
这意味着无论解释变量取什么值,随机扰动的程度都是一样的。
在工资-教育关系的研究中,同方差性假设可能不成立。教育水平较低的工人,职业选择相对有限,工资变差较小;而教育水平较高的工人,职业选择更多样化,工资变差可能更大。
这种情况下,我们说存在异方差性:随教育年限的变化而变化。
在同方差性假设下,OLS估计量的方差有简单的公式:
OLS估计量的方差公式:
Var(β̂₁) = σ²/Σ(xᵢ - x̄)²
Var(β̂₀) = σ²[1/n + x̄²/Σ(xᵢ - x̄)²]
从这些公式可以看出几个重要特点:
误差方差的影响: 越大,估计量的方差越大。这符合直觉:如果数据中的随机扰动越大,我们的估计就越不精确。
样本大小的影响: 随着样本量增加,通常会增加,从而降低估计量的方差。
解释变量分散程度的影响: 解释变量越分散,估计量的方差越小。这就是为什么在实验设计中,我们希望解释变量的取值尽可能分散。
在实际应用中,真实的误差方差是未知的,我们需要从数据中估计它。
虽然直觉上我们可能想用来估计,但这个估计量是有偏的。原因是OLS残差必须满足两个约束条件:残差之和为零,以及残差与解释变量的协方差为零。
因此,我们使用自由度调整后的估计量:
误差方差的无偏估计量:σ̂² = Σûᵢ²/(n-2)
分母中的反映了我们在估计过程中使用了两个参数(截距和斜率),因此“消耗”了2个自由度。
将σ̂²代入方差公式,我们得到估计量的标准误:
se(β̂₁) = σ̂/√[Σ(xᵢ - x̄)²]
标准误告诉我们估计的精确程度。标准误越小,说明我们的估计越精确。
在后续的假设检验和置信区间构造中,标准误将发挥关键作用。它是连接样本估计和总体推断的重要桥梁。
从方差公式可以看出,增加样本大小有两个好处:
直接效应: 分母中的增加,直接降低了估计量的方差。
间接效应: 更大的样本通常意味着更大,进一步降低估计量的方差。
这解释了为什么经济学家总是希望获得更大的样本:更多的数据通常意味着更精确的估计。
理解OLS估计量的统计性质对实际应用至关重要:
模型诊断: 如果我们怀疑零条件均值假设不成立,可能需要寻找遗漏的重要变量。
样本设计: 在可能的情况下,我们应该选择解释变量变差较大的样本。
结果解释: 标准误的大小帮助我们判断估计结果的可靠程度。

在某些特殊情况下,我们可能需要强制回归线通过原点(即令截距为零)。这通常发生在理论上确信当时的情况下。
税收与收入关系: 如果收入为零,个人所得税也应该为零,因此可能适合使用通过原点的回归。
生产函数: 在某些生产函数中,当投入为零时,产出理论上也应该为零。
在通过原点回归中,我们估计模型:
使用最小二乘法,斜率估计量为:
通过原点回归的斜率估计量:β̃₁ = Σ(xᵢyᵢ)/Σ(xᵢ²)
通过原点回归只有在真实截距确实为零时才是合适的。如果真实模型包含非零截距,而我们强制使用通过原点回归,会导致斜率估计量有偏。
在通过原点回归中,传统的R平方定义可能产生问题。通常有两种计算方式:
方式一(常用): R² = 1 - Σ(yᵢ - β̃₁xᵢ)² / Σyᵢ²
方式二(更有意义): R² = 1 - Σ(yᵢ - β̃₁xᵢ)² / Σ(yᵢ - ȳ)²
第二种方式实际上是在比较通过原点回归与仅使用均值预测的表现。如果这个R平方为负,说明使用进行预测还不如直接使用的均值。
与通过原点回归相对的是仅估计截距的回归:
在这种情况下,最优估计量就是样本均值:β̂₀ = ȳ。
这提醒我们,传统R平方实际上是在比较我们的回归模型与这种“仅均值”模型的表现。
理论指导: 总是从经济理论出发构建模型。理论应该指导我们选择变量和函数形式。
数据探索: 在建立正式模型之前,通过散点图等方式探索数据,了解变量间的基本关系。
假设检验: 认真考虑每个关键假设是否在具体应用中成立。
回归分析显示的是相关关系,不一定是因果关系。要建立因果关系,我们需要确保零条件均值假设成立,这在实际应用中往往很困难。
不要过分追求高R平方。在社会科学中,低R平方很常见,但这不意味着模型无用。关键在于参数估计是否在经济学上合理。
样本的代表性对回归结果至关重要。非随机抽样可能导致结果无法推广到更广泛的总体。
简单回归模型虽然提供了理解变量关系的基础框架,但也有明显局限:
遗漏变量偏误: 当重要的解释变量被遗漏时,可能导致估计偏误。
函数形式限制: 虽然我们可以使用变换,但单变量模型仍然有限制。
异方差问题: 在实际数据中,同方差假设经常不成立。
这些局限性促使我们转向多元回归分析,那里我们可以同时控制多个变量,更好地逼近“其他条件不变”的理想实验条件。
通过对简单回归模型的深入学习,我们掌握了:
经济建模的基本思路:如何用数学模型表示经济关系,如何处理复杂现实中的多重影响因素。
最小二乘法的核心原理:通过最小化预测误差的平方和来获得最佳参数估计。
统计推断的基础:理解估计量的无偏性、方差等统计性质,为后续的假设检验打下基础。
模型解释的技巧:如何正确解读回归系数,如何处理不同的函数形式。
实际应用的注意事项:理解模型假设的重要性,认识因果推断的困难。
这些知识为我们理解更复杂的计量经济方法奠定了坚实基础。在实际研究中,虽然我们很少使用简单回归作为最终分析工具,但它提供的直觉和原理是理解所有更高级方法的关键。
| 的总变差 |
| 解释平方和 | SSE | 模型解释的变差 |
| 残差平方和 | SSR | 模型无法解释的变差 |
| 变化1单位, 变化 |
| 水平-对数 | 变化1%, 变化 单位 |
| 对数-对数 | 变化1%, 变化 |