如果我们的模型遗漏了一个重要变量,那么就会导致估计偏误问题。比如我们想研究一个人的工资水平由什么决定,可以建立如下的简单的回归方程:log(wage)=eta_0+eta_1experience+eta_1experience^2+eta_3joblevel+eta_4ability+u其中, experience 代表工作时间,加入平方项是为了捕捉非线性影响, joblevel 是级别, ability 代表了个人的能力。但是我们很快面临了一个问题,就是这个能力变量无法获得,因为一个人的能力我们很难了解,也很难衡量。那么这个时候,我们就不得不把它放在了误差项里面,这个时候问题就来了,能力很可能和你在公司的级别 joblevel 相关,这个时候误差项u(包含了 ability )就和 joblevel 相关,应该如何解决这个问题呢?我们可以引入代理变量的概念,首先使用 IQ 是 ability 的一个代理变量, IQ 解释了能力的一部分,这个是符合常理的。所以我们可以有以下的方程:ability= heta_0+ heta_1IQ+e我们来看看把这个能力的表达式代入到上面的工资表达式里面会发生什么:log(wage)=(eta_0+eta_4 heta_0)+eta_1experience+eta_2experience^2+eta_3joblevel+eta_4 heta_1IQ+(u+eta_4e)好了,这个时候,如果我们可以确定 e 和上述模型中的变量不相关并且u也和上述模型中的变量不相关,那么这就是一个无偏估计。而这个假设一般是成立的。这个时候,就不存在遗漏变量偏误的问题了,或者说很大程度上减轻了遗漏变量偏误的问题。这里我们要注意:在有遗漏变量偏误的问题的时候,通常我们对这个偏误变量的系数的精确估计并不感兴趣,因为我们无法得知 heta_1 (想想为什么,我们只能得到 eta_4 heta_1 )。不过重要的是,通过这种方式我们可以得出其它变量的无偏估计。这里可以再思考一下它和工具变量有什么不一样。那么回归的时候我们应该怎么做呢?很简单,我们直接用 log(wage) 对 experience,experience^2,joglobel,IQ 进行回归即可,就可以得到前三个变量 experience,experience^2,joblevel 的系数的无偏估计。还有一种遗漏变量问题的形式:比如我们有某个变量,但是可能在模型中遗漏了他的一种形式,比如:二次方形式、或者对数形式。这个时候会产生函数形式误设的问题,然后也有对应的检测方式及处理办法。有兴趣的小伙伴可以参考伍德里奇的书一探究竟。现在,假如我们连代理变量也没有,那么会产生什么问题呢?假设真实回归方程为:y=eta_0+eta_1x_1+eta_2x_2+u \而在回归的时候遗漏了一个变量 x_2 ,即:y=delta_0+delta_1x_1+u \分别对以上两个方程进行OLS回归,有如下结论:hat{delta}_1=hat{eta}_1+hat{eta}_2*hat{gamma}_1 ,其中 hat{gamma}_1 是 x_2 对 x_1 的回归系数。证明:已知 y=Xhat{eta}+hat{u} ,可得: X"hat{y}=X"Xhat{eta} ,使用分块儿矩阵改写为:(X _1, X_2)"(X_1,X_2)(hat{eta_1}, hat{eta}_2)"=(X _1, X_2)"y根据分块儿逆矩阵的相关知识,可得:hat{eta}_1=(X_1"X_1)^{-1}X_1"y-(X_1"X_1)^{-1}X_1"X_2hat{eta}_2显然, (X_1"X_1)^{-1}X_1"y=hat{delta}_1 ,而 (X_1"X_1)^{-1}X_1"X_2=hat{gamma}由此得证。那么可知,在遗漏变量,或者说缺乏数据不得不遗漏变量时,估计量是有偏的、不一致的。如果 hat{eta}_2*hat{gamma}_1>0 则会高估,反之会低估。当然,如果 X_2 对 y 没有影响,或者说 X_1 和 X_2 不相关,那么则不会产生偏误。也就是说,一般情况下,遗漏变量会产生内生性问题,需要想办法解决!同时,也告诉我们一个写实证论文的小技巧,就是即使是有偏的,我们可以说我们做的是一个保守估计(如果可以确定有偏部分的符号!)
西柚不是西游2023-06-09 08:11:242