在实际的经济分析中,我们经常需要改变变量的计量单位。比如将房价从“万元”改为“元”,或者将收入从“元”改为“千元”。这种单位变换会如何影响我们的回归结果呢?

让我们通过一个具体的例子来理解这个概念。假设我们正在研究中国某城市新生儿体重与母亲孕期行为的关系:
其中:
假设我们的原始回归方程估计结果为:
这个结果告诉我们:母亲每天多吸1支烟,新生儿体重预期减少8.5克;家庭收入每增加1万元,新生儿体重预期增加12.3克。
现在如果我们将体重从“克”改为“千克”,新的回归方程会变成:
当因变量的计量单位发生变化时,所有回归系数都会按相同比例缩放,但变量之间的经济关系保持不变。
让我们用一个表格来对比这两种计量单位下的统计结果:
这里有一个重要的统计学原理:t统计量保持不变。这是因为系数和标准误都按相同比例变化,所以它们的比值(即t统计量)保持不变。
现在让我们考虑改变自变量的计量单位。假设我们将“吸烟量”从“支数”改为“包数”(1包=20支):
原方程:
新方程:
注意到吸烟的系数从-8.5变为-170(即-8.5×20),这完全符合经济直觉:吸1包烟的影响应该等于吸20支烟的影响。
在某些经济分析中,我们希望比较不同解释变量对因变量的相对重要性。但是,由于各变量的计量单位不同,直接比较回归系数的大小并不合理。
Beta系数是将所有变量标准化后得到的回归系数。标准化是指将每个变量转换为其z分数:
其中是样本均值,是样本标准差。
Beta系数的计算公式为:
Beta系数计算公式:β̂ⱼ = (sⱼ/sᵧ) × b̂ⱼ
其中是第j个解释变量的标准差,是因变量的标准差,是原始回归系数。

让我们用中国房价数据来说明Beta系数的应用。假设我们研究影响北京房价的因素:
使用GeneralEchart来展示不同因素的Beta系数比较:
从上图可以看出:
Beta系数的绝对值越大,表明该变量对因变量的相对影响越大。Beta系数使我们能够跨越计量单位的限制,直接比较不同变量的重要性。
对数变换在经济学中极其常用,特别是在处理货币变量时。让我们通过中国的实际经济数据来理解对数变换的优势。
考虑以下三种常见的对数模型形式:
让我们用中国城镇居民的收入-消费数据来演示对数模型:
这个例子显示了典型的消费函数关系:收入弹性约为0.8,意味着收入每增长10%,消费增长约8%。
经济关系往往不是线性的。二次项可以捕捉边际效应递减或递增的现象。
让我们用工作经验与工资的关系来说明二次项的应用:
从图中可以看出,工资随经验增长的边际效应在经验约27年时达到最大,之后开始递减。这符合劳动经济学的理论预期。
二次项模型的拐点公式:x* = -β₁/(2β₂)。在我们的例子中,拐点为 -0.08/(2×(-0.0015)) ≈ 26.7年。
在现实经济中,一个变量的影响往往依赖于另一个变量的水平。交互效应模型可以捕捉这种条件性影响。
考虑以下模型:
其中性别为虚拟变量(男性=1,女性=0)。
使用表格展示不同教育水平下的性别工资差异:
从图中可以观察到,随着教育年限增加,性别工资差异有扩大的趋势,这在劳动经济学研究中是一个重要发现。
在建立回归模型时,我们经常面临一个重要问题:如何评价模型的好坏?如何在众多可能的模型中选择最佳的一个?
我们都知道R²衡量模型的解释能力,但普通R²有一个致命缺陷:增加任何变量都不会让R²下降。这可能导致我们盲目地向模型中添加变量。
调整R²的公式为:
其中n是样本容量,k是解释变量个数。
调整R²会对新增变量进行“惩罚”。只有当新变量的t统计量绝对值大于1时,调整R²才会增加。

让我们比较两个解释中国制造业企业研发强度的模型:
模型A(对数形式):
模型B(二次形式):
使用表格对比两个模型的拟合效果:
从调整R²来看,二次模型仍然表现更好,这表明销售额对研发强度的影响确实存在非线性特征。
选择回归变量不仅是一个统计问题,更是一个经济理论问题。过度控制可能会掩盖我们真正关心的因果关系。
考虑研究啤酒税对交通事故死亡率影响的例子。我们想要的模型是:
错误做法:在模型中同时加入啤酒消费量!这样啤酒税率的系数就失去了政策含义,因为我们控制住了税收影响消费的主要机制。
正确的理解是:啤酒税通过减少啤酒消费来降低交通事故,这正是我们想要测量的总效应。
有时候我们可以通过巧妙地加入控制变量来提高估计精度,前提是这些变量与核心解释变量不相关。
假设我们在研究某大学随机发放的电脑补贴对学生成绩的影响:
由于补贴是随机分配的,这个简单模型就能给出无偏估计。但我们可以通过加入学生的背景特征来提高精度:
用图表展示精度的改善:
回归分析不仅用于理解因果关系,也常用于预测。让我们探讨如何进行可靠的预测,以及如何通过残差分析获得额外洞察。
当我们用回归方程进行预测时,需要区分两种不确定性来源:

假设我们建立了一个预测某大学录取分数的模型:
对于一个SAT成绩1200、高中排名前30%、课外活动得分85的学生,我们的点预测可能是2.75(GPA)。
但我们需要给出预测区间。预测误差的方差为:
其中第一项是估计误差,第二项是随机扰动的方差。
使用具体数据展示预测区间的构成:
可以看出,对于个体预测,随机扰动的贡献远大于估计误差,这导致预测区间相当宽:约为[1.65, 3.85]。
残差分析帮助我们识别模型中的特殊观测值,在房地产、教育等领域有广泛应用。
在房地产投资中,我们可以通过回归模型找出被低估或高估的房产:
残差分析的步骤:
当因变量是对数形式时,预测原始变量需要特别小心。简单地对对数预测值取指数会产生系统性偏误。
正确的预测公式是:
ŷ = exp(σ̂²/2) × exp(ln ŷ)
考虑CEO薪酬模型:
ln(薪酬) = β₀ + β₁ × ln(销售额) + β₂ × ln(市值) + β₃ × 任期 + u
对于销售额50亿、市值100亿、任期10年的CEO,预测步骤如下:
使用表格对比不同预测方法:
对于对数模型,修正因子在标准误较大时尤其重要。忽略这个修正可能导致显著的预测偏误。
本节内容涵盖了多元回归分析的几个重要进阶话题:
数据变换的影响:单位变换不会改变经济关系的本质,但Beta系数帮助我们比较不同变量的相对重要性。
函数形式的选择:对数变换、二次项和交互效应为我们提供了刻画复杂经济关系的工具,每种形式都有其特定的适用场景和解释方式。
模型选择的平衡:在解释力和简洁性之间找到平衡点是建模的艺术。调整R²提供了一个有用的指导,但不能替代经济理论的思考。
预测的挑战:准确的预测需要正确处理多种不确定性来源。残差分析则为我们提供了模型诊断和发现异常值的强大工具。
这些技巧在实际的经济分析中都有广泛应用,掌握它们将大大提升我们处理复杂经济数据的能力。
| 对数-线性 | 表示x增加1单位,y增长% |
| 对数-对数 | 是弹性系数:x增长1%,y增长% |