汉邦问答 / 问答 / 问答详情

互助问答第14期：工具变量和多重共线性

2023-06-09 08:12:01

TAG: 变量

共1条回复

业财融合培训讲师网自定义链接自定义链接

我来回答

ardim

问：工具变量到什么程度才合适？

对短面板数据进行GMM回归的时候，遇到两种情况：

①工具变量通过了弱工具变量检验、识别不足和过度识别检验，再用DM检验的时候还是显著的；

②工具变量通过了弱工具变量检验、识别不足和过度识别检验，但用DM检验的时候不是显著的；

看到连玉君教授的一篇文章，选了两个工具变量，汇报了工具变量通过了识别不足和过度识别检验，DWH检验显著。

由此，认为符合第一种情况表明选取的工具变量合适；但也不太确定，想听听您的看法。

答：

工具变量方法经历了两个阶段的发展。传统的工具变量方法中，在线性模型设定下，工具变量需要满足工具变量外生性和工具变量相关性两个假设，这在本科层次的计量教科书中一般都有涉及。在这种情况下，满足这两个假设的变量才是合格的工具变量。Imbens and Angrist（1994）一文的发表则将工具变量方法推向了新的阶段，在这一发展阶段，允许异质性处理效应存在，工具变量方法识别假设的提出和估计量的推导都是在Donald Rubin提出的潜在结果分析框架下进行的，此时IV估计的是局部平均处理效应，IV估计的有效性要求工具变量满足四个条件：（1）工具变量是随机产生的；（2）满足排他性约束；（3）满足单调性假设；（4）满足工具变量相关性。严格的数学表达请参见Imbens and Angrist（1994）。提问中提到的的“工具变量到什么程度才合适？”，准确的回答应该是满足上述四条假设才合适。

提问中提到的弱工具变量检验用于检验假设（4）；识别不足检验只需要满足工具变量的个数多余内生变量的个数，这个通常都是满足的；过度识别检验是在假设不存在异质性处理效应的情况下，检验工具变量是否外生的一种方法，该检验只有在存在过度识别（工具变量个数（用N表示）多于内生变量个数（用K表示））的情况下才可以做，并且要求至少有K个工具变量已经满足外生性条件，这样才能检验剩下的N-K个变量是否外生。因此，总结来看过度识别假设检验需要两个很强的假设：（1）至少有K个有效地工具变量；（2）不存在异质性处理效应，因此使用过度识别检验检验工具变量的外生性并不是一种可靠地方法，其检验结果能够提供的有效性信息并不多。DM检验（此处指的应该是Davidson-MacKinnon检验）则是用于检验OLS估计量是否是一致估计，即解释变量是否存在内生性的检验方法，同更常用的Hausman test类似。有观点认为，只有当DW检验或者Hausman检验拒绝原假设，即显示OLS估计存在内生性的时候，才需要使用IV估计，因为IV估计虽然和OLS估计一样是一致估计量的，但是有效性劣于OLS估计。但是，上述内生性检验依赖于我们已经拥有了有效的工具变量，从而能够得到一致估计量，这是很强的假设，很难实现，因为找到一个符合条件的IV实在太难了，更重要的是，我们无法保证我们所使用的工具变量是有效的，所以我们也无法保证DM检验或者Hausman检验的结论一定是有效的。在这种情况下，我本人更倾向于基于变量之间的理论关系和具体的模型设定来判断OLS估计是否内生，从而决定是否需要采用工具变量方法，而不是依赖于某个检验。

参考文献：Imbens and Angrist, 1994,“Identification and Estimation of Local Average Treatment Effects”, Econometrica, 62(2): 467-475.

问：如图，自变量与交乘项多重共线性过高，怎么办？

答：

解释变量之间存在高度的共线性本身并不一定影响方程的估计。首先，当前实证研究的核心目的在于实现因果推断，即估计某一个特定解释变量X对被解释变量Y的因果关系，如果高度共线性只是存在于控制变量之间，则既不会影响X参数估计的一致性，也不会影响有效性，我们完全无需担心；其次，如果我们关心的变量X同其他控制变量，例如变量Z之间存在高度共线，则共线性本身不影响我们估计的一致性，但是会影响估计的有效性。在第二种情况下，如果Z本身对Y有影响，遗漏Z会导致严重的遗漏变量偏误，因此，根据一致性优先于有效性的原则，我们仍然需要控制变量Z；如果Z本身对Y没有影响，则Z属于无关变量，遗漏Z不会影响一致性，但能够改善有效性，我们应该从方程中去掉Z。

学术指导：张晓峒老师

本期解答人：张川川老师

编辑：粥粥小精灵一个聪慧的人

统筹：芋头

技术：知我者

相关推荐

业财融合自定义链接自定义链接自定义链接自定义链接

遗漏变量的两个条件 遗漏变量的两个条件如下：1、多余性(edunancy )：即代理变量仅通过影响遗确变量来作用于被解释变量。比如。智商仅通过对能力”的影响来影响收入，换言之，阳代署分的数据，那么再引入智商来作力解释变量就是多余的。2、将遗漏变量剔除代理变量影响后的剩余部分与解释变量不相关。相关定义：遗漏变量与包含的解释变量相关，即2i x 1i x ()0,cov 21≠i i x x 。在这种情况下，根据大样本理论，最小二乘法不再是一致的，其偏差被称为“遗漏变量偏差”（omitted variable bias ）。这种偏差在经济计量的实践中比较常见，成为某些计量研究的致命伤。比如，在研究教育投资的回报率时，个体的先天能力差异是不可观测的，但能力与受教育年限很可能存在正相关。 2023-06-08 15:54:161

遗漏变量偏差公式 公式：遗漏变量会引起估计系数大小有偏，而自相关和异方差只会带来统计量（T值）有偏，也就是影响显著性，系数是无偏的。遗漏变量是指，遗漏的变量既与自变量有关，又与因变量有关。比如你的身高是x，树的高度是y，把树每年的高度对你每年的身高做回归，系数肯定显著为正。但是遗漏了时间这个变量。其实你的身高和树的身高并没有关系，只不过都随着时间长高而已。计算方法标准偏差公式：S = Sqrt[(∑(xi-x拨)^2) /（N-1）]公式中∑代表总和，x拨代表x的均值，^2代表二次方，Sqrt代表平方根。例：有一组数字分别是200、50、100、200，求它们的标准偏差。x拨 = (200+50+100+200)/4 = 550/4 = 137.5S^2 = [(200-137.5)^2+(50-137.5)^2+(100-137.5)^2+(200-137.5)^2]/(4-1)标准偏差 S = Sqrt(S^2)STDEV基于样本估算标准偏差。标准偏差反映数值相对于平均值 (mean) 的离散程度。 2023-06-08 15:54:321

遗漏变量违反了哪个假设 遗漏自变量会引起异方差性和随机解释变量问题，由于违背了高斯一马尔科夫假设，会导致OLS估计量不再是BLUE。遗漏重要解释变量一般会导致扰动项与其他解释变量相关，即违反外生性假定，这会导致参数估计的不一致，这个是不能接受的，另外，在时间序列中遗漏变量也可能会产生序列相关问题。遗漏变量是管理学研究中导致内生性问题的主要因素。遗漏变量会影响因变量，且与至少一个自变量相关，因此该遗漏变量会影响误差项，违背OLS外部性假设，即在给定自变量的条件下，误差项的期望为0。遗漏变量偏差介绍遗漏变量偏差是指模型设定中遗漏了某个或某些解释变量，并且遗漏的变量还与模型中的解释变量相关而导致的误差。比如在教育回报率的OLS估计中，遗漏了不可观测的能力，能力会影响个体的教育选择，也会影响个体的收入水平。这样，在劳动力市场上观察到的教育对收入的正向影响（即一般OLS估计的结果），很可能包含能力因素（而不能完全归于教育）的影响。遗漏变量是不可避免的问题，因为我们不可能找到所有会影响被解释变量的因素，但只要遗漏的变量与解释变量不相关就万事大吉，因为这种情形不会导致估计不一致。 2023-06-08 15:55:331

遗漏变量是被解释变量的决定性因素怎么判定 遗漏变量的检验：基本原理遗漏变量属于解释变量选取错误的一种，因为某些数据确实难以获得，但是有时这种遗漏将会大大降低模型的精确度。假设正确模型如下：Y=β 0 +X 1 β 1 +X 2 β 2 +u i如果在模型设定中遗漏了一个与被解释变量相关的变量X 2 ，即所设定的模型为：Y=β 0 +X 1 β 1 +u i通过这两个方程的对比不难发现，在实际研究过程中，将遗漏变量X 2 β 2 纳入了新的扰动项u i 中。遗漏变量的影响有3种情况：一是遗漏的变量X 2 只影响被解释变量Y，而不影响解释变量X 1 ，或与解释变量X 1 不具有相关性，则不存在内生问题，这时在大样本理论的支撑下，OLS方法仍然可以得到β 1 的一致估计，只是估计的精确度有所下降。二是遗漏的变量X 2 同时影响被解释变量，也影响解释变量，这时产生内生变量问题，根据大样本理论，OLS方法将得不到一致估计，这种偏差被称为遗漏变量偏差，可能会导致实证研究的较大偏差与谬误。三是遗漏的变量X 2 只影响解释变量，而不影响被解释变量，这时模型估计不存在内生问题，但有利于捕捉直接效应与间接效应。为了避免这种情况的出现，Stata提供了两种检验是否存在遗漏变量的方法：一种是Link检验；另一种是Ramsey检验。Link检验的基本思想是：如果模型的设定是正确的，那么y的拟合值的平方项将不应具有解释能力。Ramsey检验的基本思想是：如果模型设定无误，那么拟合值和解释变量的高阶项都不应再有解释能力。 2023-06-08 15:55:481

遗漏变量违反了MLR1-4中的哪条？ 假定MLR.4（条件均值为零）伍德里奇的计量经济学导论里有讲，漏掉一个与x1,x2,……，xk中任何一个自变量相关的重要因素，也能假定MLR.4不成立。这句话是建立在他认为与简单回归分析相比，多元回归分析中出现漏掉变量的可能性小很多的基础上的，所以没说漏掉变量，而是说的漏掉重要因素。遗漏重要变量，一是只影响被解释变量，而不影响解释变量；二是同时影响被解释变量和解释变量；三是只影响解释变量，而不影响被解释变量，在计量上没有内生性。第一种情况，会使得u中包含该变量使得E(u)不为0；第三种情况是由于遗漏变量和解释变量相关，所以u的均值在给定自变量任何值的情况下不会一直为0；第二种情况就是以上都有。 2023-06-08 15:55:561

完全多重共线性和遗漏变量偏差是什么？ 楼上有误。遗漏变量会引起估计系数大小有偏，而自相关和异方差只会带来统计量（T值）有偏，也就是影响显著性，系数是无偏的。再来解释你的问题。遗漏变量是指，你遗漏的变量既与自变量有关，又与因变量有关。比如你的身高是x，树的高度是y，把树每年的高度对你每年的身高做回归，系数肯定显著为正。但是你遗漏了时间这个变量。其实你的身高和树的身高并没有关系，只不过都随着时间长高而已。另外，多重共线性和线性相关是不一样的。线性相关就是你说的，一个变量可以用另一个变量表示。用向量的语言来说，就是两个变量是共线的。而多重共线性是说，两个变量的向量是夹角小于90度大于0度（如果完全无关，则向量夹角为90度）。多重共线性是普遍存在的。两个自变量之间有多重共线性是很正常的，只要vif<10，就对结果影响不大。顺便一说，多重共线性也能保证结果无偏，只是影响显著性。而如果vif<10，则显著性的影响也不大，可以不用考虑。所以，加入遗漏的相关的变量，可能会出现多重共线性，但一般不会线性相关。如果多重共线性太严重，可以考虑换个指标什么的。 2023-06-08 15:56:051

完全多重共线性和遗漏变量偏差是什么？ 楼上有误。遗漏变量会引起估计系数大小有偏，而自相关和异方差只会带来统计量（T值）有偏，也就是影响显著性，系数是无偏的。再来解释你的问题。遗漏变量是指，你遗漏的变量既与自变量有关，又与因变量有关。比如你的身高是x，树的高度是y，把树每年的高度对你每年的身高做回归，系数肯定显著为正。但是你遗漏了时间这个变量。其实你的身高和树的身高并没有关系，只不过都随着时间长高而已。另外，多重共线性和线性相关是不一样的。线性相关就是你说的，一个变量可以用另一个变量表示。用向量的语言来说，就是两个变量是共线的。而多重共线性是说，两个变量的向量是夹角小于90度大于0度（如果完全无关，则向量夹角为90度）。多重共线性是普遍存在的。两个自变量之间有多重共线性是很正常的，只要vif<10，就对结果影响不大。顺便一说，多重共线性也能保证结果无偏，只是影响显著性。而如果vif<10，则显著性的影响也不大，可以不用考虑。所以，加入遗漏的相关的变量，可能会出现多重共线性，但一般不会线性相关。如果多重共线性太严重，可以考虑换个指标什么的。 2023-06-08 15:56:141

遗漏变量偏误公式的意义 遗漏变量偏误公式的意义是私立虚拟变量与之显著相关，加入其他特征后并不会削弱其相关性，但加入能力显示变量后，这种相关性就不存在了。根据相关资料查询：遗漏变量偏误公式：遗漏变量偏误等于遗漏变量本身对被解释变量的影响乘以关键解释变量对遗漏变量的影响，具体做法是：将学生经匹配分成151个组后，构造各组虚拟变量。在收入水平对私立虚拟变量的简单回归中，私立虚拟变量上的系数显著为正，控制SAT成绩、家庭背景和其他人口统计学特征后仍然显著。相反，如果在简单回归中加入组虚拟变量，私立效应就变得不显著了，控制其他特征也不改变这一事实。 2023-06-08 15:56:211

遗漏变量的检验方法 RESET检验。模型遗漏变量或设定错误数学形式偏误，常用的比较准确的检验方法是RESET检验。遗漏变量是指，你遗漏的变量既与自变量有关，又与因变量有关。 2023-06-08 15:56:421

遗漏变量偏误第几章 如果我们的模型遗漏了一个重要变量，那么就会导致估计偏误问题。比如我们想研究一个人的工资水平由什么决定，可以建立如下的简单的回归方程：log(wage)=eta_0+eta_1experience+eta_1experience^2+eta_3joblevel+eta_4ability+u其中， experience 代表工作时间，加入平方项是为了捕捉非线性影响， joblevel 是级别， ability 代表了个人的能力。但是我们很快面临了一个问题，就是这个能力变量无法获得，因为一个人的能力我们很难了解，也很难衡量。那么这个时候，我们就不得不把它放在了误差项里面，这个时候问题就来了，能力很可能和你在公司的级别 joblevel 相关，这个时候误差项u（包含了 ability ）就和 joblevel 相关，应该如何解决这个问题呢？我们可以引入代理变量的概念，首先使用 IQ 是 ability 的一个代理变量， IQ 解释了能力的一部分，这个是符合常理的。所以我们可以有以下的方程：ability= heta_0+ heta_1IQ+e我们来看看把这个能力的表达式代入到上面的工资表达式里面会发生什么：log(wage)=(eta_0+eta_4 heta_0)+eta_1experience+eta_2experience^2+eta_3joblevel+eta_4 heta_1IQ+(u+eta_4e)好了，这个时候，如果我们可以确定 e 和上述模型中的变量不相关并且u也和上述模型中的变量不相关，那么这就是一个无偏估计。而这个假设一般是成立的。这个时候，就不存在遗漏变量偏误的问题了，或者说很大程度上减轻了遗漏变量偏误的问题。这里我们要注意：在有遗漏变量偏误的问题的时候，通常我们对这个偏误变量的系数的精确估计并不感兴趣，因为我们无法得知 heta_1 (想想为什么，我们只能得到 eta_4 heta_1 ）。不过重要的是，通过这种方式我们可以得出其它变量的无偏估计。这里可以再思考一下它和工具变量有什么不一样。那么回归的时候我们应该怎么做呢？很简单，我们直接用 log(wage) 对 experience,experience^2,joglobel,IQ 进行回归即可，就可以得到前三个变量 experience,experience^2,joblevel 的系数的无偏估计。还有一种遗漏变量问题的形式：比如我们有某个变量，但是可能在模型中遗漏了他的一种形式，比如：二次方形式、或者对数形式。这个时候会产生函数形式误设的问题，然后也有对应的检测方式及处理办法。有兴趣的小伙伴可以参考伍德里奇的书一探究竟。现在，假如我们连代理变量也没有，那么会产生什么问题呢？假设真实回归方程为：y=eta_0+eta_1x_1+eta_2x_2+u \而在回归的时候遗漏了一个变量 x_2 ，即：y=delta_0+delta_1x_1+u \分别对以上两个方程进行OLS回归，有如下结论：hat{delta}_1=hat{eta}_1+hat{eta}_2*hat{gamma}_1 ，其中 hat{gamma}_1 是 x_2 对 x_1 的回归系数。证明：已知 y=Xhat{eta}+hat{u} ，可得： X"hat{y}=X"Xhat{eta} ，使用分块儿矩阵改写为：(X _1, X_2)"(X_1,X_2)(hat{eta_1}, hat{eta}_2)"=(X _1, X_2)"y根据分块儿逆矩阵的相关知识，可得：hat{eta}_1=(X_1"X_1)^{-1}X_1"y-(X_1"X_1)^{-1}X_1"X_2hat{eta}_2显然， (X_1"X_1)^{-1}X_1"y=hat{delta}_1 ，而 (X_1"X_1)^{-1}X_1"X_2=hat{gamma}由此得证。那么可知，在遗漏变量，或者说缺乏数据不得不遗漏变量时，估计量是有偏的、不一致的。如果 hat{eta}_2*hat{gamma}_1>0 则会高估，反之会低估。当然，如果 X_2 对 y 没有影响，或者说 X_1 和 X_2 不相关，那么则不会产生偏误。也就是说，一般情况下，遗漏变量会产生内生性问题，需要想办法解决！同时，也告诉我们一个写实证论文的小技巧，就是即使是有偏的，我们可以说我们做的是一个保守估计（如果可以确定有偏部分的符号！） 2023-06-08 15:56:492

Omitted Variable Bias （OBV）遗漏变量偏差 Omitted Variable Bias （OBV）指的是，一个统计模型遗漏了一些变量，而模型把遗漏变量对响应变量的影响，算在了已经包含的变量头上（张冠李戴了）。发生 OBV 的必要条件假设真实的因果关系是这样的： (1) 也就是说，响应变量 y 被 x ，z 影响，其中 u 是误差项。假设 x 和 z 有如下关系 (2) 把（2）带入（1）中，得到: （3）由（3）可以得知，当遗漏了 z 时， x 的系数就变成了（b + cf）而不是 b 。其中 b 是 x 和 y 的直接关系，而 cf 是间接关系。 cf 包含了 OBV 的 extend 和 direction 其中：一个测算被雇佣与本科学历的回归如下结果如下之后，研究者发现，还应该引入是否是黑人这个变量，于是，模型改为结果如下分析：在第一个模型中，由于遗漏了 black 这个变量，导致高估了获得大学学位的重要性（0.0244 vs 0.0231）。思考题基于以上两个回归结果，黑人获得大学学位的情况如何？解答：对应公式 (1) (2) (3)，其中：从第一个模型可得： (b + cf) = 0.0244 , 第二个模型可得 b = 0.0231, 由此可得： cf = 0.0244 - 0.0231 = 0.0013 另外，从第二个模型可知， c = -0.0347 , 所以 f = 0.0013 / -0.0347 = -0.037 也就是说： x (college) 和 z (black) 是负相关的，所以可以得到，黑人更少的获得大学学位。 2023-06-08 15:56:551

熵平衡匹配可解决遗漏变量问题吗 可以。Hainmueller（2012）提出的熵平衡（Entropybalancing）数据处理方法经过蒙特卡罗数据模拟（MonteCarloSimulations）被证实很好地解决了遗漏变量问题。该方法通过预先设置一组平衡性约束与规范性约束条件，确保处理组和对照组在特定矩下实现数据的精确匹配，并自动计算一组与约束条件相匹配的最优权重。 2023-06-08 15:57:021

遗漏变量偏误第几章 当遗漏变量与解释变量不相关时，OLS得到的估计量仍然是一致的，只是会影响OLS估计的精确度，此时不需要过度关注遗漏变量问题；如何因素由于不可观测而未被纳入模型中，且这些因素与X是有相关性的，这个时候就存在内生性问题了。根据上一条学习笔记的分析可知，内生性问题会导致估计量的不一致估计，此时的估计结果就不可信了。也就是说，遗漏变量与解释变量不相关——仍是一致估计量——不影响研究结论；遗漏变量与解释变量相关——内生性问题——估计量不一致——估计结果不可信——研究结论存疑。 2023-06-08 15:57:091

遗漏变量偏误名词解释 遗漏的解释[omit;leave out] 因疏忽而漏掉详细解释 (1).谓应该列入或提到的事物因疏忽而没有列入或提到。《后汉书·杨震传》：“名实覈所部，应当斥罢，自以状言，三府廉察有遗漏，续上。” 《北史·韦阆传》：“ 孝文每与德学沙门谈论往复，纘掌缀録，无所遗漏，颇见知赏。” 《歧路灯》第七回：“你可打算行李，休遗漏下东西。” 巴金《家》一：“我恨不得把所有的话一字不遗漏地说出来。” (2).指弃置未用的人或物。《后汉书·仲长统传》：“夫如此，然后可以用天性，究人理，兴顿废，属断绝，网罗遗漏，拱柙天人矣。” (3).犹失火。《京本通俗小说·碾玉观音》：“ 连忙推开楼窗看时，见乱烘烘道：‘ 井亭桥有遗漏。"” 元张国宾《合汗衫》第二折：“我则听的张员外家遗漏火发。” 《古今小说·史弘肇龙虎君臣会》：“当夜黄昏后，忽居民遗漏。” 词语分解遗的解释遗（遗） í 丢失：遗失。遗落。漏掉：遗忘。遗漏。丢失的东西，漏掉的部分：补遗。路不拾遗。余，留：遗留。遗俗。遗闻。遗址。遗风。遗憾。遗老（a．经历世变的老人；b．仍然效忠前一朝代的老人）。漏的解释漏 ò 物体由孔或缝透过：壶里的水漏光了。漏风。渗漏。漏泄（a．水、光等流出或透出；b．泄露）。漏电（跑电）。泄露：走漏消息。漏底（泄露内情）。透漏。脱逃或无意放过：疏漏。遗漏。挂一漏万。漏网之鱼。 2023-06-08 15:57:161

请问遗漏变量检验时结果怎么看？什么情况下属于遗漏了呢？是p小于0.05，拒绝原假设的时候吗？ 单样本K-S检验正态分布的结果，只要看sig值就可以了，当sig值大于0.05，说明你要检验的数据分布和正态分布没有显著差异，即你的数据属于正态分布。那个人误解了原假设和研究假设，在统计中，原假设H0一般是：变量与某某不存在显著差异或没有显著关系，而研究假设H1则是：变量与某某存在显著差异或有显著关系（而这里的原假设就是数据的分布和正态分布没有显著差异）。当sig大于0.05，则接受原假设，小于0.05，则拒绝原假设，这在统计中是永远成立的。如果你对K-S的检验结果不太相信，你可以再看一下数据的散点图，看是否比较接近散点图。希望你不要被他人误解。 2023-06-08 15:57:251

双重差分法遗漏控制变量会导致什么 双重差分法在实证研究中主要用于评估政策效应。与其他方法相比，双重差分法的识别方法非常直观：先观察受政策影响的个体在政策前后的变化，再观察未受政策影响的个体在政策前后的变化，两个变化之间的差异就是政策干预对个体的影响。同时，双重差分法可以非常方便地使用最小二乘法来实现。 2023-06-08 15:57:412

用eviews如何进行遗漏重要解释变量的检验 view/coefficient tests/omitted variables-likelihood ratio输入你觉得不知道该不该加到方程里的变量多的话用空格就可以了显示的是F和LR统计量和包含你输入的新解释变量的估计结果据说只有列表法定义的方程才能这么用 2023-06-08 15:58:051

双向因果内生性怎么解决 双向因果内生性解决办法如下：一、内生性问题解决方案1、遗漏变量偏差：面板数据模型、工具变量（IV）、双重差分法（DID）、断点回归设计（RDD）、随机实验或自然实验、倾向得分匹配（PSM）、Heckman选择模型2、双向因果关系：工具变量（IV）3、测量误差偏差：工具变量（IV）4、动态面板偏差：差分GMM、系统GMM二、内生性问题的来源1、遗漏变量偏差遗漏变量偏差是指模型设定中遗漏了某个或某些解释变量，并且遗漏的变量还与模型中的解释变量相关而导致的误差。比如在教育回报率的OLS估计中，遗漏了不可观测的能力，能力会影响个体的教育选择，也会影响个体的收入水平。这样，在劳动力市场上观察到的教育对收入的正向影响（即一般OLS估计的结果），很可能包含能力因素（而不能完全归于教育）的影响。遗漏变量是不可避免的问题，因为我们不可能找到所有会影响被解释变量的因素，但只要遗漏的变量与解释变量不相关就万事大吉，因为这种情形不会导致估计不一致。2、双向因果关系双向因果是指解释变量与被解释变量互为因果，这样也会使解释变量与误差项相关，造成内生性问题。但被解释变量y_i也会反过来会影响解释变量x_i；方程中的解释变量x_i与误差项u_i相关，因此存在内生性问题。双向因果关系的实例很多。例如，经济萧条可能引起内战，但内战也会导致经济停滞。再例如，地价影响房价，房价也会影响地价。3、测量误差偏差测量误差是指由于对变量测量不准确而导致的误差，比如我们要测量的自变量的真实值为x_i，结果测量存在误差，导致测量值为x_i^*，测量值除了包含真实值x_i外，还包含一个误差项v_i。这样也会使解释变量与误差项相关，造成内生性问题。由于测量值x_i^*与误差项v_i相关，上式中解释变量x_i^*与复合误差项(u_i-β_1 v_i)相关，因此存在内生性问题。4、动态面板偏差动态面板偏差是指解释变量中因为包含了被解释变量的滞后项而带来的偏差。当模型纳入被解释变量的滞后项作为解释变量，由于被解释变量的滞后项与误差项的滞后项相关。在误差项存在自相关的情况下，误差项与误差项的滞后项相关，使被解释变量的滞后项与误差项相关，进而导致内生性问题。 2023-06-08 15:58:111

验证性因素分析时残差可以相关吗 看你的目的是什么啦，如果仅仅估计参数，无论是异方差还是自相关，你的参数都是无偏的；但方差较大，预测准确度较低。你要克服异方差同时还有自相关，建议拟采用FGLS（可行广义二乘），可同时达到目的。广义差分尽管也可以，但损失自由度，而且要你自己推断出相关系数。但我觉得奇怪的是，你为什么同时既有异方差又有序列相关；所以我觉得你很可能是有遗漏变量，遗漏变量进入残差项中，且与自变量相关，最终会导致你估计非无偏且非一致。所以，最好先用直接做回归，后得到的残差，与自变量测下相关性；如相关性强，则说明存在遗漏变量。然后你采用工具变量法进行回归就可以了。 2023-06-08 15:58:371

高级计量经济学 16：短面板(上) (修正1) 在读 paper 的时候，发现自己对短面板的框架逻辑有不全面的地方，在这里对各位读者说声对不起！这是船新的版本，我将自己的理解融入其中，笔记顺序与教材不同。毕竟我也是现学现卖，敬请谅解！此文内容为《高级计量经济学及STATA应用》的笔记，陈强老师著，高等教育出版社出版。我只将个人会用到的知识作了笔记，并对教材较难理解的部分做了进一步阐述。为了更易于理解，我还对教材上的一些部分（包括证明和正文）做了修改。目录面板数据（ panel data ），也译为平行数据（ longitudinal data ），指的是在一段时间内跟踪同一组个体（ individual ）的数据。它既有横截面的维度（个个体），又有时间维度（个时期）。通常的面板数据较小，而较大，在使用大样本理论时让。这种面板数据被称为短面板（ short panel ）。反之，如果较大而较小，则被称为长面板（ long panel ）。如果在面板数据中，每个时期的样本中的个体完全一样，则称为平衡面板数据（ balanced panel ）；反之，则称为非平衡面板数据在面板模型中，如果解释变量包含被解释变量的滞后值，则称为动态面板（ dynamic panel ）；反之，称为静态面板（ static panel ） (1) 面板数据的优点 (2) 截面数据的缺点当然，截面数据也会带来一些问题：估计面板数据的一个极端策略是将其看成横截面数据而进行混合回归（ pooled regression ），即要求样本中每个个体都拥有完全相同的回归方程（在 15.3 讨论）。另一个极端策略是为每个个体估计一个单独的回归方程。前者忽略了个体间不可观测或被遗漏的异质性，而该异质性可能与解释变量相关而导致估计不一致；后者则忽略了个体间的共性，也可能没有足够的的样本容量。因此，在实践中常常采用折衷的估计策略：即假定个体的回归方程拥有相同的斜率，但可以拥有不同的截距，以此来捕捉异质性，如图 15.1 所示：这种模型被称为个体效应模型（ individual-specific effects model ），其模型形式为：其中，为不随时间而变（ time invariant ）的个体特征（即），比如性别；而则可以随个体及时间而变（ time-varying ）。扰动项由两部分构成，成为复合扰动项（ composite erroe term ），而方程也称为复合扰动项模型（ error compoents model ）。较早的文献有时将视为常数，但这也只是随机变量的特例，即退化的随机变量；而为随个体与时间而改变的扰动项。我们主要关注，这是因为“个体效应模型”的个体特征来源于。在几何上代表个体异质性的截距；在统计上则代表一个扰动项：在短面板，我们假设为独立同分布（长面板可以放松此假定），且与不相关。另外，显然，与截面数据相比，面板数据提供了更为丰富的模型与估计方法。如果所有个体都拥有完全一样的回归方程，也就是说每个个体连截距项都相同，那么方程的就都相等。我们记为截距，即，那么方程就可以写成：其中，不包含常数项。这样，就可以把所有的数据放在一起，像对待横截面数据那样进行 OLS 回归，故被称为混合回归（ polled regression ）。混合回归可以被称为总体平均估计量（ Population-averaged estimator, PA），因为可以把它理解为将个体效应都平均掉了。由于面板数据的特点，虽然通常可以假设不同个体之间的扰动项相互独立，但同一个体在不同时间的扰动项之间往往存在自相关。此时，对标准误的估计应该使用聚类稳健的标准误（ cluster-robust standard error ），而所谓聚类（ cluster ），就是由每个个体不同时期的所有观测值所组成。同一聚类（个体）的观测值允许存在相关性，而不同聚类（个体）的观测值则不相关。混合回归的基本假设是不存在个体效应。对于这个假设必须进行统计检验。由于个体效应以两种不同的形态存在：固定效应、随机效应，故在下面会分别介绍其检验方法。固定效应模型是指与某个解释变量或相关的个体效应模型。换句话说，由于存在一些遗漏变量，使得与解释变量产生内生性。所以，固定效应模型求解的关键就是如何排除内生性的干扰！总的来看，与某个解释变量或相关分成两种情况：我们下面来探讨如何对两种固定效应模型进行处理。如果与某个解释变量或相关，那么此个体效应模型就变成了固定效应模型。这种情况下， OLS估计是不一致的。为了得到一致的估计量，解决的方法是将模型转换，并将消去。给定个体，将方程两边对时间取平均，可得：用则可以得到原模型的离差形式：定义：那么就变成了：在公式中，已经被消去，故只要与不相关，就可以使用 OLS 一致地估计，称为固定效应估计量（ Fixed Effects Estimator ），记为。由于使用了每个个体的组内离差信息，故也被称为组内估计量（ within estimator ）。即使个体特征与解释变量相关，只要使用组内估计量，就可以得到一致估计，这是面板数据的一大优势。然而，在作离差变换的过程中，也被消掉了，于是无法估计。也就是说固定效应模型无法估计不随时间而变的变量的影响，这是 FE 的一大缺点。另外，为了保证与不相关，则要求第个观测值满足严格外生性，即：这是因为中包含了的所有信息。换言之，扰动项必须与各期的解释变量均不相关，这是一个比较强的假定。如果在原方程中引入个虚拟变量（如果没有截距，则引入个虚拟变量）来代表不同的个体，则可以得到与上述离差模型同样的结果，即：其中，个体虚拟变量如果；否则。可以用 OLS 估计此方程，而且我们可以证明， LSDV 法与组内估计量 FE 完全一样。因此，FE 也被称为最小二乘虚拟变量模型（ Least Square Dummy Variable Model, LSDV）不过，如果作完 LSDV 后发现某些个体的虚拟变量不显著将其删去，那么 LSDV 的结果就不会与 FE 相同。使用 LSDV 的好处是可以得到对个体异质性的估计（模型中的），但如果很大，则需要在回归方程中加入很多虚拟变量，可能超出一些计量软件的最大解释变量数量。 LSDV 法深受不少研究者的喜爱，因为它操作简便，可解释性也强。考虑固定效应模型，可以对个体效应模型进行差分处理：于是，把两个方程相减，就可以得到一阶差分方程，从而消除个体效应：对此差分模型使用 OLS 估计即得到一阶差分估计量（ First Differencing Estimator ），记为。由于不再出现在差分方程中，只要扰动项的一阶差分与解释变量的一阶差分不相关，则就是一致的，这比的严格外生性要求更弱，是的优点。不过，可以证明，在下，比更有效率。因此，在实践上，主要使用而不是。但对于动态面板，严格外生性无法满足，则主要用。上面的个体固定效应解决了不随时间而变但随个体而变（time invariant）的遗漏变量问题。类似地，引入时间固定效应，则可解决不随个体而变但随时间而变（individual invariant）的遗漏变量问题。假设模型为：其中，不可观测，定义，则上式可以写成：在上式，可将视为第期独有的截距项，并将其解释为第期对被解释变量的效应。于是，这些称为时间固定效应（time fixed effects）。显然，这个模型可以用 LSDV 法来估计，即对每时期定义一个虚拟变量，然后把个时间虚拟变量包括在回归方程中，比如：其中，时间虚拟变量如果否则。对于上面的式子，既考虑了个体固定效应（的）、又考虑了时间固定效应（的），所以称为双向固定效应（Two-way FE）。相应的，如果仅考虑个体固定效应（如15.4.1 的模型）则称为单向固定效应（One-way FE）。有些情况，为了节省参数，可以引入时间趋势项，以代替个时间虚拟变量：显然，这个式子隐含着一个较强的假定：每个时期的时间效应应该增长，随时间是均匀增长的。如果此假定不大可能成立，那么就应该使用 a. 的时间虚拟变量法；该方法可以独立估计每一期的时间固定效应，也可以用于判断每期的时间效应是否大致相等。 2023-06-08 15:58:441

如何解决内生性？ 内生性问题，是指解释变量x和残差项u之间存在相关性。导致内生性问题的原因有多个，所以也就有多个与之对应的解决内生性的方法。首先有可能是遗漏变量，遗漏的变量和x相关。如果你知道遗漏变量是什么，直接加进来作为控制变量即可。这是最简单的一种。即两阶段最小二乘回归。是用于解决内生性问题的一种方法，除TSLS外还可使用GMM估计。内生变量是指与误差项相关的解释变量。对应还有一个术语叫‘外生变量"，是指与误差项不相关的解释变量。产生内生性问题的原因，分别说明如下：内生性问题的判断上，通常是使用Durbin-Wu-Hausman检验（SPSSAU在两阶段最小二乘回归结果中默认输出），当然很多时候会结合自身理论知识和直观专业性判断是否存在内生性问题。如果假定存在内生性问题时，直接使用两阶段最小二乘回归或者GMM估计即可。一般不建议完全依照检验进行判断是否存在内生性，结合检验和专业理论知识综合判断较为可取。内生性问题的解决上，通常使用工具变量法，其基本思想在于选取这样一类变量（工具变量），它们的特征为：工具变量与内生变量有着相关(如果相关性很低则称为弱工具变量)，但是工具变量与被解释变量基本没有相关关系。寻找适合的工具变量是一件困难的事情，解决内生性问题时，大量的工作用于寻找适合的工具变量。过度识别和恰好识别是可以接受的，但不可识别这种情况无法进行建模，似想用一个工具变量去标识两个内生变量，这是不可以的。另需要提示，如果是恰好识别状态下是无法进行Durbin-Wu-Hausman检验。工具变量引入时，有时还需要对工具变量外生性进行检验（过度识别检验），针对工具变量外生性检验上，SPSSAU默认提供Sargan检验和Basmann检验。内生性问题涉及以下几点：分别是内生变量判断（Durbin-Wu-Hausman检验和理论判断）、内生性问题的解决（两阶段最小二乘回归TSLS或GMM）、工具变量引入后过度识别检验（Sargan检验和Basmann检验）等。如果在理论上认为可能某解释变量可能为内生变量，那么直接进行TSLS回归即可。 2023-06-08 15:58:501

工具变量法的工具变量法与内生解释变量 内生解释变量会造成严重的后果：不一致性inconsistent和有偏biased，因为不满足误差以解释变量为条件的期望值为0。产生解释变量内生一般有三个原因：一、遗漏变量二、测量误差三、联立性第三种情况是无法解决的，前两种可以采用工具变量（IV）法。IV带来的唯一坏处是估计方差的增大，也就是说同时采用OLS和IV估计，则前者的方差小于后者。但IV的应用是有前提条件的：1.IV与内生解释变量相关，2.IV与u不相关。在小样本情况下，一般用内生解释变量对IV进行回归，如果R－sq值很小的话，一般t值也很小，所以对IV质量的评价没有大的问题，但是当采用大样本时，情况则相反，往往是t值很大，而R－sq很小，这时如果采用t值进行评价则可能出现问题。这时IV与内生解释变量之间的相关程度不是太大，但是如果与u之间有轻微的相关的话，则：1、导致很大的不一致性；2、有偏性，并且这种有偏性随着R－sq趋于0而趋于OLS的有偏性。所以现在在采用IV时最好采用R－sq或F－sta作为评价标准，另外为了观测IV与u的关系，可以将IV作为解释变量放入方程进行回归，如果其他的系数没有大的变化，则说明IV满足第二个条件。 2023-06-08 15:58:571

稳健性检验方法 稳健性检验方法有变量替换法，补充变量法，调整变量的分类标准，分样本回归，改变样本容量，缩短或者延长周期，改变计量方法。1、工作绩效既可以用工作量也可以用工作完成时间来衡量（替换因变量或者主要的自变量）。2、补充变量法模型中存在遗漏变量（随机扰动项与解释变量相关）。加入遗漏变量再次进行分析，看结论是否会发生改变。3、分类标准是水果可以按照颜色来分，也可以按照口感来分。4、根据某特性将总样本分成几个小样本分别进行研究，看结论是否会发生改变。例如，在研究激励措施对工作绩效的影响时，我们可以将样本按性别分成两个小样本，在每个样本中分别进行研究。稳健性检验的目的：1、稳健性检验考察的是评价方法和指标解释能力的强壮性，也就是当改变某些参数时，评价方法和指标是否仍然对评价结果保持一个比较一致、稳定的解释。2、通俗些，就是改变某个特定的参数，进行重复的实验，来观察实证结果是否随着参数设定的改变而发生变化，如果改变参数设定以后，结果发现符号和显著性发生了改变，说明不是稳健性的，需要寻找问题的所在。3、稳健性检验的目的是确定统计方法在数据存在异常值或非正态分布情况下仍能够产生可靠结果的能力。稳健性检验旨在验证统计方法对数据分布特征的敏感性，以及它们是否能够在不同的数据集、模型和假设下保持有效性。4、有助于确保研究结果的可靠性和准确性，同时也可以帮助研究人员认识到数据中的潜在问题，并采取适当的数据处理和分析策略。 2023-06-08 15:59:151

如何做稳健性检验 稳健性检验检验的是实证结果是否随着参数设定的改变而发生变化，如果改变参数设定以后，结果发现符号和显著性发生了改变，说明不是robust的，需要寻找问题的所在。一般根据自己文章的具体情况选择稳健性检验：1. 从数据出发，根据不同的标准调整分类，检验结果是否依然显著；2. 从变量出发，从其他的变量替换，如：公司size可以用total assets衡量，也可以用total sales衡量；3. 从计量方法出发，可以用OLS, FIX EFFECT, GMM等来回归，看结果是否依然robust； 2023-06-08 16:00:082

内生性的三大来源 内生性三个来源是遗漏变量偏差，测量误差，反向因果1、遗漏变量偏差，这是指模型中漏掉了一个或几个重要的解释变量，且这些被遗漏的解释变量与模型的解释变量相关。你可以这样理解，本来在一个回归中，有一个重要的解释变量，但你没有把这个解释变量放进模型，这意味着这个变量会自动被包含进扰动项中。如果这个被遗漏的解释变量与模型已有的解释变量不相关，那估计依然是无偏的。但是如果被遗漏的变量与没有被遗漏的变量相关，这就会造成解释变量与扰动项相关，也就是内生性问题的定义。2、测量误差。对于一个变量X，我们仅能观测到其中能够观测到的部分，比如X1，而对于X无法观测到的部分X2（X=X1+X2，这里的意思是X由可观测的X1和不可观测的X2两部分组成），就被自然地放到了误差项。那么X2是否与其他解释变量相关就不确定了，如果相关，就造成解释变量与误差项相关，也就是内生性问题。3、反向因果。当至少一个解释变量倍确定为被解释变量的函数，反向因果就出现了。如果解释变量X被部分地确定为被解释变量Y的函数，这意味着X与Y相关，而Y与误差项相关，因此，X与误差项相关，回到内生性的定义。举个例子，公司的某项投资会影响公司绩效，但反过来，公司的绩效也会影响公司的该项投资，因为绩效好意味着公司有更多的钱来进行这种投资。 2023-06-08 16:00:141

内生性检验方法 这个问题太专业，我建议你还是到医院咨询一下专科的医生，他们会给你最好的建议。.@.我的宝现在已经一周多了，我也曾经有过这种担心，我的宝是剖腹产的，在出生时就有脐疝，当时我很担心，但是医生说不用担心，这个是很正常的，只要宝不哭闹就没有什么大问题，等宝大一点就会自然好了。.@.祝你的宝健康成长！.@.我的宝是在我们这里的医院生的，当时我也是很担心，但是现在我的宝一点问题都没有，所以我建议你也不要太担心了！ 2023-06-08 16:00:532

稳健性检验的三种方式 稳健性检验的几种办法如下：1、变量替换法：工作绩效既可以用工作量也可以用工作完成时间来衡量（替换因变量或者主要的自变量）。2、补充变量法：模型中存在遗漏变量（随机扰动项与解释变量相关）。加入遗漏变量再次进行分析，看结论是否会发生改变。3、调整变量的分类标准：水果可以按照颜色来分，也可以按照口感来分。4、分样本回归：根据某特性将总样本分成几个小样本分别进行研究，看结论是否会发生改变。例如，在研究激励措施对工作绩效的影响时，我们可以将样本按性别分成两个小样本，在每个样本中分别进行研究。5、改变样本容量：提出样本中的异常点和离群值。6、缩短或者延长周期：研究不同时间段的样本。稳健性检验目的为了确定没有随机趋势或确定趋势，否则将会产生“伪回归”问题。伪回归是说，有时数据的高度相关仅仅是因为二者同时随时间有向上或向下的变动趋势, 并没有真正联系。这样数据中的趋势项,季节项等无法消除。从而在残差分析中无法准确进行分析. 平稳性检验的方法可以用PDF检验, 依据模型趋势可以选择3种模型. 消除趋势可以用差分法(比如一阶)模型也只有通过平稳性检验才有统计分析的意义。会计的稳健性会计稳健性作为一项重要的会计信息质量要求，却经常受到资本市场规制者、准则制定者和实务工作者的批评，理论界对会计稳健性的认识似乎也非常有限。有鉴于此，为了深入理解会计稳健性，笔者首先对会计稳健性的概念进行梳理。着重分析了条件稳健性和非条件稳健性。接着。从契约经济激励、法律和政治制度等方面，对会计稳健性的产生原因进行解读。最后，对会计稳健性的几种重要的测度方法进行了描述，并对最新进展给予了关注。 2023-06-08 16:01:011

实证研究的主要步骤 1.提出研究问题——具体（在a对b有何作用这一问题中，明确a/b各是什么）、有趣（why should 为care？）、新颖（研究新现象、使用新方法、新数据集）、可行（通过查文献看他人是否有类似的研究或大致数据是否可得） 2.文献回顾 cnki/jstor/econlit....百度、google…… 3.建立理论模型具体来说，回归分析一般只能说明变量之间的相关性，要对变量之间的因果关系作出判断常常需要依赖于经济理论。因此，即使无法提供完整的理论模型，也应该进行一定的理论分析。最理想的情形是，从理论模型中推导出计量模型，即待估计的回归方程。 4.收集数据如果使用别人的数据，要注意其数据是如何定义、计算的（统计口径），是否与你的理论模型中的变量相对应。 5.使用适当的计量方法。比如，被解释变量为二元变量，则可以使用probit或者logit；如果是非负整数，则可以使用泊松回归；如果是面板数据，则可以考虑固定效应、随机效应、时间效应、动态面板等；如果是时间序列，则应先判断是否含单位根（如果样本容量太小，比如小于20，则可以不进行单位根检验，因为单位根是大样本检验），再决定使用相应的计量方法。对于一般的数据，通常先做OLS，看看结果，作为一个参照系。做完OLS后，可以画残差图（residual plot），大致看看扰动项是否符合经典嘉定，然后进行严格的检验。如果有所违背（比如，存在异方差、自相关），则作相应的处理。对于时间序列，还可以检验是否存在结构变动（邹检验）。另外，应该对数据的质量进行检验，判断是否存在多重共线性、极端值、弱工具变量等，并作相应的调整。对于回归函数的具体形式，可以考虑线性、对数（如果解释变量只取正数且有指数增长趋势）、双对数、非线性（边际效应不是常数）等。由于受数据可获得性的限制，遗漏变量几乎不可避免。因此，很有必要在实证论文中对此进行讨论。不外乎两种情况。第一，存在遗漏变量，但与解释变量不相关（需要说明为什么不相关），故可以不作处理。第二，存在遗漏变量，且与解释变量相关，则必须进行处理，处理方法包括增加控制变量、寻找代理变量、使用工具变量、使用面板数据等。另一常见问题是内生解释变量。此时，一般需要找到有效的工具变量才能得到一致的估计。由于面板数据可以在一定程度上客服遗漏变量问题，故比横截面数据或时间序列更有说服力。因此，如果可以获得面板数据，则应尽力争取。大多数的实证论文都希望说明x对y的因果作用。而从回归分析的相关关系得到因果关系，是一个很大的飞跃。引言——文献回顾——理论框架——计量模型——数据说明——计量方法——回归结果——结论 2023-06-08 16:01:351

怎么判断模型是否存在个体效应 判断模型中是否存在固定变量，是否可克服遗漏变量。1、判断模型中是否存在固定变量。个体存在效应是用来捕捉不随时间变化的个体之间的差异。2、是否可克服遗漏变量。遗漏变量会引起估计系数大小有偏，查看模型是否可以克服系数大小差偏。 2023-06-08 16:01:441

人力资本理论研究哪些变量 人力资本理论的产生，标志着人力资本与物质资本的分开，尤其肯定了人力资本在经济社会发展中的关键作用，对社会、经济及人的发展都产生了极其深远的影响。在理论探讨与实践中走过六十年的人力资本理论，正在从“以教育为核心”走向“以能力为核心”，在理论研究与政策实践中开启新人力资本理论的篇章。　　第一，从教育到能力。传统研究框架通常认为，能力是人体之中具有经济价值的知识、技能和体力。由于能力的不易测量性，经济学家在关注个体后天的经济表现时，常简单地将教育作为潜在能力的代理变量来阐述和验证能力的经济功能。他们认为能力是人力资本概念的别称，而非人力资本的一种表现形式。　　随着资本研究的深入，经济学家发现教育不一定能带来更高的生产力及更高的收入，反而是传统理论下先天给定的能力，在决定个人表现上发挥着核心作用，教育在某种程度上只能部分衡量能力水平。随着现代神经科学和心理学等技术的发展，对能力的测量技术日趋成熟。在此背景下，经济学家开启以“能力”而非“教育”为核心的新人力资本研究框架，研究者得以从更深层次去刻画人力资本的多样性。此后，经济学家把认知能力看作现代社会重要的分层机制，丰富的实证研究证实了认知能力对个体在社会行为方面的表现具有显著影响。　　第二，从单维到多维。在早期关注能力概念的一些研究中，文献片面地将能力等同于认知能力（智力）。通常认为，在劳动力市场中能被赋予报酬的能力是劳动者的运算、记忆和推理等认知能力，对非认知能力的关注有限。在教育回报率的估计中，大多数研究均认为能力偏差（ability bias）的遗漏变量是认知能力，并用认知测验的成绩作为其代理变量。　　随着经验研究的深入推进，经济学家们逐渐发现，认知能力并不能完全解释个体在学习、工作上的异质性表现，具有同等认知能力的个体在后期经济社会表现中仍然具有较大差异，而被认知能力所掩盖的更复杂的能力结构对个体的表现更为重要，并决定着认知能力的发挥。在这一背景下，经济学家开始关注和挖掘隐藏在认知能力背后的这些未被衡量的因素，并将这些因素定义为非认知能力。研究人员开始将非认知能力纳入个人成就的经济分析中，指出个性、毅力、动机和魅力等特质在成功中非常重要。此后的一系列研究也发现非认知能力是工资、收入、健康、犯罪和关系稳定等经济结果的重要预测指标，甚至超越认知能力的影响。 2023-06-08 16:01:571

2020-03-04 基本无害的计量经济学阅读笔记 学习计量经济学的历史应该是一部血泪史。最开始的时候是本科大三上的时候，学习最基本的内容，学习Eviews，老师好像只讲到异方差。那时候上课还算认真，有段时间因为去日本访学，还在图书馆里看录的视频，看不懂就反复看。成绩应该还不错。有意思的是，老师讲到一个例子，好像是通货膨胀是否促进了经济增长，老师跑了个回归，说是正向促进作用。我觉得很奇怪的，这不一定是通货膨胀促进经济增长啊，还可能是经济增长导致通货膨胀啊。问了老师问题，老师糊弄我一下，就不了了之了。没想到的是，这个问题居然其实是计量经济学里最重要的问题。可想而知，老师已经脱离学术圈很久了。大四的时候自学伍德里奇的计量经济学导论，学到一半就放弃了，Stata倒是学得很溜。那段时间也学习了很多杂的计量经济学知识，双重差分什么都是那个时候学的。所以那个时候觉得自己很厉害，我记得好像还买了陈强老师的书。到了研究生阶段，上了中级和高级计量经济学，但老师以讲授理论知识为主，应用那部分自己也会了，其实对我的提升是非常有限的，基本没啥长进。也有选修专门的应用计量，貌似学到了一些东西，但自己写论文的过程中应用不多。所以总觉得自己的大脑里没有形成体系，比如稳健的标准误，聚类是啥其实搞不明白。理论学得比较杂，应用也没有成体系，于是想着利用因为疫情呆在家的这段时间，看看这本书《基本无害的计量经济学》，英文名是Mostly Harmless Econometrics: An Empiricist"s Companion。看看自己能不能坚持下去吧。一项研究的四个常见问题：书中收录的这首俳句很有意思： T-stat looks too good. Use robust standard errors- significance gone. 医院能够使人变得健康吗？如果比较去过医院的人和没去医院的人的健康问题，可以得到结论，没去过医院的人更加健康。所以去医院会变得不健康吗？当然也是有可能的，因为去医院可能会面临更高的传染病风险。因为去医院的人一般是身体比较差的人，所以上面的说法肯定是存在问题的。也就是样本选择偏差。我们要考虑的是，本来要去医院的人，如果后来没去医院的话，他的身体会怎么样。随机分配可以消除选择性偏误。如果是随机分配的，其实加入控制变量是没有必要的，但是，一般来说，这种做法可以为我们带来对因果关系更加精确的估计。标准误可能会减小，估计更加显著。 Angrist曾经问Alen Meltzer，他是否对把时间花费在寻求回归结果上感到满意，因为那之后只不过是很多双面加宽绿色条的论文而已。他大笑，然后说这是他最愿意做的。现在Angrist们也和大学和研究院的老师和指导老师一样，整日地追寻着回归结果。在没有随机分配可以利用时，我们未必能对回归结果赋予一个因果解释。即便无法解决因果性的难题，我们也很显然地知道在侠义地统计意义上，教育水平能够预测收入。我们使用条件期望函数（conditional expectation function, CDF）来概括和总结这种预测能力。条件期望函数的分解性质：任意一个随机变量Y都可以分解成由X解释的部分和正交于X的部分。我们将经验研究看作在无需精确计算变量之间关系的同时捕捉到变量间统计关系实质的一种努力。一般而言，异方差实际不会带来太大的影响。在运用分组数据进行的回归中，如果分组样本的大小不同饱和回归模型指的是具有离散解释变量的模型，对解释变量的所以可能取值，该模型都存在相应的参数与之想对应。包括虚拟变量和二者乘积的回归中，虚拟变量的系数就叫做主效应（main effect），两个虚拟变量乘积叫做交互项。如果对于给定的总体，条件期望函数刻画了平均潜在结果之间的不同，那么就说这个条件期望函数具有因果性。越来越觉得这像是一本哲学书。 Robert Frost"s celebrated The Road Not Taken: the traveller-narrator sees himself looking back on an moment of choice. He believes that the decision to follow the roads less traveled "has made all the difference", though he also recognizes that counterfactual outcomes are unknowable. 条件独立假设指的是给定观察到的特点X，选择性偏误消失。 Omitted variable bias公式描述是当回归包含不同的控制变量时，回归结果之间存在的关系。这个公式的出发点是：可以对存在控制变量的回归方程赋予一个因果解释，但无法对不含有控制变量的回归方程赋予一个因果解释。因此，在不含控制变量的较短回归方程中得到的系数就被认为是biased。短回归参数等于长回归参数加上一个数，这个数等于遗漏变量效应乘以遗漏变量对被包含变量的回归系数。遗漏变量公式和解构回归公式都告诉我们当遗漏变量和纳入回归方程的变量不相关时，长回归和短回归得到的系数时一样的。教育年限和工资收入的回归中，如果假如一些能力的变量，教育年限的系数机制减小了。要说明条件独立假设时成立的，等于要说明控制了所有可观察的因素之后，服役和未服役的人之间是可比的。我们已经指出，对协变量的控制可以提高回归估计值获得因果解释的可能性，但并不是控制变量越多越好。有些控制变量是不合格的控制变量，将其加入回归固然可以改变回归系数，但实际上缺不该将其加入。不合格的控制变量是那些可以作为实验结果的变量。不合格的控制变量本身可市作为被解释变量。合格的控制变量是指当我们选定回归元之后，它的取值已经固定给出的那些变量。在一个经验研究中的例子中，我们可以看到将职业的虚拟变量加入回归后，确实降低了教育水平的系数。但我们很难解释是何种原因导致了这种下降。教育水平的系数变小可能仅仅是选择偏误的一种表现。因此我们最好还是用不由教育水平决定的那些变量作为控制变量。当使用代理变量做控制变量时，也会出现不合格的控制变量问题，也就是说纳入回归方程的变量可能部分地控制遗漏变量，但是它本身被我们感兴趣地变量影响。用代理变量作为控制变量得到的估计系数比没有控制的情况下更接近真实值。当我们开始思考使用何种变量作为控制变量时，对不合格控制变量和代理性控制变量都适用一个挑选准则：考虑控制变量被决定地时间。一般来说，在我们感兴趣地变量产生之前就被决定的变量都是好的控制变量。如果时间不确定的话，因果关系的准确考量需要我们做出哪个变量先被决定的假设，或者说没有任何一个控制变量是由我们感兴趣的变量所影响的。如果条件期望函数具有因果性，那么回归结果可以逼近条件期望函数这一事实使得回归系数也具有了某种意义上的因果性。不过这种说法不够精确。回归是一种匹配估计量，并且由其提供的计算匹配估计量的方法具有良好的性质。事实上，匹配法对由每个协变量的特定值所决定的个体计算处理组和控制组之间的平均差异，然后用加权平均的方式将这些平均因果效应汇总到一个总的因果效应中。回归于匹配都是用了控制协变量的研究策略。可以将回归看在一种特殊的匹配估计量，因此从经验研究的角度看，两者的区别并不太重要。使用匹配法对被处理者的处理效应进行估计时，对于由协变量的不同取值足和所决定的不同组别的个体而言，匹配法将最大权重赋予最可能被处理的那组的个抽屉的处理效应。相比之下，回归估计将最大权重赋予条件方差最大的那组个体的处理效应。对回归与匹配的进一步讨论：有序处理和连续处理倾向评分定理指的是：给定多元协变量构成的向量，如果潜在结果与处理状态独立，那么给定协变量向量的某个值函数，潜在结果与处理状态仍然相互独立，这里协变量向量的值函数被称为倾向得分。类似于回归中的遗漏变量公式，倾向评分定理指出我们只要将影响处理概率的协变量控制好就好。但实际上，这个定理还能让我们走得更远，我们位以需要控制的协变量就是处理概率本身。 2023-06-08 16:02:071

遗漏变量是否要显著 遗漏变量要显著。遗漏变量会引起估计系数大小有偏，而自相关和异方差只会带来统计量（T值）有偏，也就是影响显著性，系数是无偏的。遗漏变量问题顾名思义，就是本来应该是解释变量的变量，没有没放入回归的模型中，导致的一系列问题。但是，实际上，只要不存在遗漏变量偏差则照常估计即可。遗漏变量主要有两种情形：遗漏变量与解释变量相关或者与解释变量无关。其中第二种情形可以不用处理，因为这种情形不会导致估计不一致。而第一种情形如果不处理将会严重影响实证的可信性，必须处理。 2023-06-08 16:02:351

遗漏重要解释变量为什么会导致扰动项与其他解释变量相关 遗漏重要解释变量一般会导致扰动项与其他解释变量相关，即违反外生性假定，这会导致参数估计的不一致，这个是不能接受的。另外，在时间序列中遗漏变量也可能会产生序列相关问题。 2023-06-08 16:03:271

请教，遗漏控制变量会使导致主要解释变量的符号发生 遗漏重要解释变量一般会导致扰动项与其他解释变量相关，即违反外生性假定，这会导致参数估计的不一致，这个是不能接受的。另外，在时间序列中遗漏变量也可能会产生序列相关问题。 2023-06-08 16:03:431

【判断题】对无法观测的解释变量使用代理变量,但这样可能得不到主要解释变量的无偏一致参数估计。 假定MLR.4（条件均值为零）伍德里奇的计量经济学导论里有讲，漏掉一个与x1,x2,……，xk中任何一个自变量相关的重要因素，也能假定MLR.4不成立。这句话是建立在他认为与简单回归分析相比，多元回归分析中出现漏掉变量的可能性小很多的基础上的，所以没说漏掉变量，而是说的漏掉重要因素。遗漏重要变量，一是只影响被解释变量，而不影响解释变量；二是同时影响被解释变量和解释变量；三是只影响解释变量，而不影响被解释变量，在计量上没有内生性。第一种情况，会使得u中包含该变量使得E(u)不为0；第三种情况是由于遗漏变量和解释变量相关，所以u的均值在给定自变量任何值的情况下不会一直为0；第二种情况就是以上都有。 2023-06-08 16:04:441

计量经济学为什么遗漏一个解释变量会违背mlr3 遗漏重要解释变量一般会导致扰动项与其他解释变量相关，即违反外生性假定，这会导致参数估计的不一致，这个是不能接受的。另外，在时间序列中遗漏变量也可能会产生序列相关问题。 2023-06-08 16:05:281

完全多重共线性和遗漏变量偏差。计量经济学 遗漏变量偏差的后果一般只有异方差性跟自相关吧，多重共线性的原因一般没有遗漏变量。 2023-06-08 16:06:043

gmm工具变量不通过 遗漏变量偏差。gmm工具在检验时，变量不通过，是因为遗漏变量偏差导致的。gmm是上海数吉计算机科技有限公司开发的全网游社交工具。 2023-06-08 16:06:411

计量经济学中用怀特（White）检验修正了异方差性，进行自相关检验时发现该模型还有序列自相关，该如何修正 科克伦—奥科特迭代或者普莱斯—温斯特差分 2023-06-08 16:07:153

经济学建模问题。。两个看起来是有相关性的经济因素，建模的结果确实两者之间影响的不大，该怎么解释呢？ 不如用对数模型试试，变量弄成logc，logx，logFDI，logGDP 2023-06-08 16:08:373

控制变量选择比较困难的原因 遗漏变量。控制变量是指与特定研究目标无关的非研究变量，控制变量选择比较困难的原因为遗漏变量，模型忽视了其他重要因素的影响。 2023-06-08 16:08:441

内生性问题和反向因果的区别 内生性问题是个既重要，又复杂的问题。说它重要，是因为现在的管理学实证文章（用二手数据），如果在稳健性检验部分不提内生性问题，那审稿人一定会说你方法部分不严谨。经济学金融学文章更是这样，他们对计量的要求比管理学高。说它复杂，是因为它的来源复杂，解决方法复杂。好的工具变量不好找，有好的工具变量并且审稿人认可并且问题有意思的可以试试顶刊了。 2023-06-08 16:08:512

请问stata中得ovtest,rhs是什么意思？ right hand side, 指将全部自变量用于ov检验的意思～ 2023-06-08 16:08:592

笔记-固定效应 期末了...所以比较忙，贴篇10月份的读书笔记因果推断的关键是控制住干扰因果关系的可观察因素。如果该因素是观察不到的，那可以尝试使用前面的工具变量法。但是良好的工具变量一般不易找到，因此需要一些其他手段来处理这些不可观察的干扰因素：如个体固定效应、双重差分。例如我们研究收入和教育间的关系：教育年限会影响收入y，但是观察不到的因素u（个人能力等）也会通过教育年限影响收入y。此时我们估计出的参数β1就不准确（测度教育对收入的影响）。之所以不能准确估计出参数，原因主要是我们的信息不足，我们无法找到一个完全代表教育的信息来测量教育对收入的影响。在横截面数据结构下，我们会选择工具变量更加准确地估计β1。在本例中我们可以引入母亲的教育年限来作为工具变量（根据已有的研究知道，母亲的教育年限会影响孩子的教育年限，但是母亲的教育年限不会影响到孩子个人的能力）。此时引入母亲教育年限这一个新信息会使使得信息更充分。在面板数据中，我们引入固定效应的概念。个体固定效应指考虑个体在未受到干预时表现出的趋势特征，然后在处理组和控制组将这种趋势特征控制，最后比较两者的水平差异。固定效应是针对面板数据的处理手段。面板数据和横截面数据的区别在于面板多了一个时间维度，即一个人处理能横向地和同时间的其他人比较，也可以纵向的很之前之后的自己比较。如果把一个人在不同时间的数据称为一组数据的话。那么前者称为组间差异、后者称为组内差异。此时，如果要估计出准确的参数，组间和组内的差异都要考虑到，不然这些扰动因素就会干扰到对参数的估计。在本例中，因为多了时间维度的数据，我们对研究对象的信息掌握的更加充分了，在估计时不再需要借助该人以外的其他信息了。固定效应的办法即给每个人单独创造出一个名义变量（0-1变量），这个名义变量可以看做是承载此人所有不随时间变化的特质的集合。当把这个名义变量代入回归方程进行回归时，相当于吸走了每个人不随时间变化的特质组间差异，只留下了组内差异。上面我们研究的是个体固定效应模型，即解决了不随时间而变但随个体而异的遗漏变量问题。但还可能存在不随个体而变，但随时间而变的遗漏变量问题，此时需要引入时间固定效应模型。同样地我们以研究收入和教育的关系，考虑不同时间上有不同的教育政策影响人们受教育程度，为了简便不考虑个体层面的固定效应，即假设每个人能力上几乎没有差异。以上我们讨论了单独的个体固定效应和单独的时间固定效应，即“单向固定效应”。如果同时考虑个体和时间固定效应，称为”双向固定效应“。此时我们可以通过检验这些虚拟变量的联合显著性来判断是否应该使用双向固定效应模型。参考资料： 2023-06-08 16:09:321

Stata回归的问题 自圆其说就可以啦 2023-06-08 16:09:402

一篇文章的稳健型检验需要用几种材料 1、变量替换在实证论文写作分析中，变换变量法主要针对的对象是所考察主题的因变量（被解释变量）、自变量（解释变量）。根据不同文献的度量方法，作者可以引用不同的因（自）变量的度量方法，来考察研究问题或研究假设的稳健性。当然，这也是体现作者行文撰写中的谨慎性、合理性。2、模型检验方法的替换在实证论文写作过程中，计量经济学为我们提供多项方法的选择余地。一般而言，因变量是我们在选择引用方法时主要考虑的标准之一。譬如，当主题所考察的因变量为连续变量，其存在不少0样本时，文章选择最小二乘法（OLS）、tobit模型都比较适宜，显然这两种方法在一定程度上来讲是可以替换选择的。当然，这种方法上的替换思路和思维不是仅仅局限于与此，还应考虑样本的特性，如截面数据，抑或是面板数据等，此时两类不同样本间也存在较大差异，自然所采用的方法也会有所不同，从而使得所得结论的说服力也存在差异。3、内生性问题的检验内生性问题是社会科学领域中研究因果关系时必须关注和考察的问题之一。一般而言，内生性问题产生的原因有如下几个方面：1，遗漏变量，且遗漏变量与引入模型的其他变量相关；2，解释变量和被解释变量相互作用，相互影响，互为因果；3，自我选择偏误；4，样本选择偏误。在当前社会科学领域研究中，解决内生性问题的方法有多种：工具变量法、Heckman二阶段模型考察、自然实验法、双重差分法。4、剔除影响结论的特殊样本剔除特殊样本是我们实证分析中比较常见的一种方法。譬如不少文献在考察政治联系对企业债务融资的影响时，他们在考察问题时将“北京”地区的企业样本予以剔除，是因为北京属于中国的政治中心；在考察新冠肺炎疫情对企业投资发展影响时，他们在考察问题时将“湖北”地区的企业样本予以剔除，是因为湖北是此次疫情的重灾区，影响大可能更为突出。5、增加其他一些重要的控制变量增加一些其他的重要控制变量，是因为考虑到在模型回归分析中我们忽视或遗漏了一些重要因素，而这些因素将是影响我们考察因果关系中的重要变量。譬如，当作者在控制了企业财务特征因素后，你可以尝试控制经理人个人特征因素、所在地区经济发展因素等方面的变量。当然，这是笔者在文章写作过程中选择重要变量的思路，以供大家参考。6、变换研究样本，重新检验所得结论作者在使用某个数据库的样本得出结论后，再通过其他样本（或数据库）进行检验分析，从而进一步夯实了这个结论，也是非常有价值的。7、排除其他理论逻辑和假设这种方法主要是指，针对某个经济现象或问题，作者在运用某一理论进行分析其中逻辑时，也有其他读者或外审专家认为还有其他理论逻辑可以对此问题予以解释说明。此时，作者可以运用数据实证或理论阐述的方式来推翻他人理论逻辑的质疑，从而进一步提高作者在文章中所思所想的稳健性。8、多重共线性问题的考察，尤其是调节变量的交叉项多重共线性问题，是实证分析过程中比较常见的一种实证问题，需要大家引起注意，尤其是遇到调节交叉项时。此时，我们所采用的方法是逐步回归法，或当存在调节交叉项时，实证分析应对交叉项所采用的子变量分别予以中心化处理，再进行相乘得出交叉项。 2023-06-08 16:09:481

科研论文第四讲——建立计量模型 建立计量模型实证研究可以没有理论模型；但如有好的理论模型作为基础，则更有说服力。回归分析一般只能说明变量之间的相关性，要对变量之间的因果关系做出判断，常需要经济理论。即使无法提供完整的理论模型，也应该进行一定的理论分析。理想情形：从理论模型推导出计量模型(econometric model)，即待估计的回归方程。好的实证论文，需要讲好的“故事”(story)，然后用数据来证实或检验此故事。对于回归函数的具体形式，可考虑线性、对数(变量只取正数且有指数增长趋势)、双对数、非线性(边际效应不是常数)等。在设定模型时，应尽量使用常识(common sense)与经济理论(economic theory)。比如，将“人均变量”(如人均消费)与“人均变量”(如人均 GDP)相匹配；使用实际汇率来解释实际进出口。又比如，考虑 FDI 对经济增长的作用。由于 FDI 起作用需要时间，如果把当年的增长率对当年的 FDI 进行回归，可能没有太大意义。比较适当的做法是，考虑期初的 FDI 对随后五年(或若干年)经济增长的作用(这样做也可缓解双向因果关系)。如不确定该如何设定计量模型，可借鉴文献中同类研究的模型设定。模型既不能过于简单(解释变量过少)，也不宜过于复杂，而应当保持适当的简洁(keep it sensibly simple)。在选择解释变量时，“从小到大”(specific-to-general)的建模方法简单易行，但可能偏差较大(因为存在遗漏变量)； “从大到小”(general-to-specific)的建模方法偏差小，却不易执行。实践中，常采用折衷方案，即选择简单而有解释力的模型。 2023-06-08 16:09:551

工具变量内生性检验不通过 请问您问的是工具变量内生性检验不通过的原因吧。工具变量内生性检验不通过的原因是遗漏变量偏差。因为被遗漏的变量与没有被遗漏的变量相关，这就会造成解释变量与扰动项相关，也就是工具变量内生性检验不通过的原因，所以工具变量内生性检验不通过的原因是遗漏变量偏差。 2023-06-08 16:10:021

Likelihood Ratio, Wald和Lagrange Multiplier(Score)检验的区别与相似点 本文是对参考原文链接这篇文章的翻译。如有疑问或译文有误，可留言修正。本文尝试这些基本概念1)似然比检验2)Wald检验3)分数检验。一位研究员想要估计下面这个模型，该模型使用 gender ， read ， math , science 四个预测变量预测学生在标准测试中的 High vs low writing score 。模型结果如图1. 现在研究员想知道，图1中的模型(使用4个预测变量)会不会比只使用两个预测变量（ gender , read )时的模型更显著。研究员将如何进行这种比较呢? 有三种常用检验可以用来检验这类问题，他们是似然比检验LR ， Wald检验和拉格朗日乘子检验(有时也叫分数检验) 。这些假设检验有时被描述成检验嵌套子模型区别的的检验，因为模型中的一个了可以理解成被内嵌在另一个模型中。就像两个预测变量的模型其实可理解成是四个预测变量的子模型，那么想要知道嵌套子模型与全变量模型的好坏区别就可以使用上述的三种检验去做评估。上述三种检验都通过比较模型的似然值来评估他们的拟合度。似然是一个概率，表达的是已知某种结果对应某个参数估计值的概率(具体理解见图2)。模型的目标是找到一个参数值（系数）使得似然函数值最大，也就是说找到一组参数可以最大程度的近似数据集。很多应用程序使用对数似然函数，而不是似然函数，这是因为对数似然函数计算起来更方便。对数似然函数永远是负数，值越大（越接近于0）表明拟合模型更好。尽管上面图1中的模型是逻辑回归，但这些检验方法非常通用，可以应用于具有似然函数的任何模型。上面已经提到过，似然函数是参数与数据的函数。当数据集一旦确定就不再改变，可以改变系数估计值使得似然函数达到最大值。不同的参数值，或者估计值的集合将对应不同的似然概率。如图3所示，图中曲线体现出对数似然值随着参数a的变化而变化的趋势。X轴是参数a的值，Y轴是参数a取某值时对应的似然函数值。大多数模型都多个参数但如果模型中的其他参数固定不变，改变其中一个参数如a时就会呈现出图3中的相似的曲线。垂直的这条线标记出最大似然值对应的a的取值。似然比检验（以后简写为LR)被用来评估两个模型并且比较两个模型的拟合效果。从一个模型中删除掉几个预测变量往往会使模型拟合效果变差（比如，会得到一个更小的对数似然概率），但这对于检验所观察的模型拟合度是否具有统计显著性来说是必要的。 LR通过这种方式来比较两个模型的对数似然值来检验两个模型，如果此差异（两个模型的对数似然值差异）是统计显著的，那么限制性更小的模型（参数更多的模型）相对限制性更大的模型对数据的拟合更好。如果你已经有了一个模型的对数似然值，那么LR检验值就很容易计算了。LR检验统计值计算公式如下：其中指对应模型的似然函数值，表示模型的自然对数似然函数值。指系数少的模型，表示系数更多的模型。检验统计结果服从卡方分布，自由度等于受约束的参数个数，比如这里相对全变量模型，只有2个参数的模型少了两个变量，所以自由度为2，所以检验统计结果服从自由度为2的卡方分布。使用上面的两个模型，使用LR检验他们的差异。模型1是只使用两个 gender 和 read 两个变量的模型（没有 math 和 science ,我们将它们的系数限制为0），图4是模型1的结果，结果中标记出了对数似然函数值（我们不对模型结果进行解释，这不是文章的目的）。现在再运行模型2，模型2中使用4个预测变量，图5是模型结果。同样我们仅标记出模型2的对数似然值，并不对模型的做过多的解释。既然有了两个模型的对数似然值，我们可以计算LR。代入公式我们有即我们的似然比是36.05（服从自由度为2的卡方分布）。我们现在可使用一张表或者其它手段得知36.05对应的 , 这表示全变量模型相对两个变量的子模型拟合数据更显著。值得注意的是，很多统计工具包会都会计算两个模型的LR检验去比较两个模型，我们现在手动做是因为它计算简单且可以更好的帮助理解似然比检验的工作原理。 Wald与LR相似，但比LR要简单，因为它只需要评估一个模型。Wald通过检验的工作原理是检验一组参数等于某个值的零假设。对被检测的模型来说，零假设是指感兴趣的两个系数是否同时为零。如果检验结果无法拒绝零假设，表明移除这两个变量将不会严重影响模型对数据的拟合效果，因为相对系数标准差很小的系数通常对因变量的预测没有太大帮助。Wald的计算公式相对LR来说有点繁琐所以这里不会列出，可参考（Fox, 1997, p569）。为了让大家直观的感受Wald如何工作，它会测试标准误差下估计参数距离0有多远（或者是零假设下的其他值），wald的结果和其他回归结果的假设检验很类似。只不过wald可以同时检验多个参数，而经典的做法是在回归结果中一次只检验一个参数。图6显示了四个变量的模型，也不是模型2的结果。图7中第一部分列出了wald检验的零假设，即 math和science对应的系数同时为0 。第二部分列出了模型2执行wald检验后的卡方分布值为27.53，其对应的自由度为2的卡方分布的 p_value=0.0000 ，即p值掉入拒绝域，我们可以拒绝两个参数同时为0的假设。因为包括具有统计意义的预测变量应该会导致更好的预测（即更好的模型拟合），所以我们可以得出结论，包括 math 和 science 变量会使模型拟合的统计得到显著改善。与Wald检验一样，Lagrange乘数检验仅需要估计一个模型。区别在于，使用拉格朗日乘数检验时，估计的模型不包含感兴趣的参数。这意味着，在我们的示例中，我们可以使用拉格朗日乘数检验来测试在仅使用 gender 并将其作为预测变量运行的模型之后，向模型中添加 science 和 math 是否会导致模型拟合度显著改善。基于在模型中变量（ female 和 read ）的观察值处的似然函数的斜率来计算测试统计量。该估计的斜率或“分数”是拉格朗日乘数测试有时称为得分测试的原因。如果在模型中包括其他变量，则将分数用于估计模型拟合的改进。如果将变量或变量集添加到模型，则测试统计量是模型卡方统计量的预期变化。因为如果将当前遗漏的变量添加到模型中，它会测试模型拟合的改进，所以拉格朗日乘数检验有时也称为遗漏变量的检验。它们有时也称为修改索引，尤其是在结构方程建模文献中。图8是使用变量female和作为hiwrite的预测变量读取的逻辑回归模型的输出（与LR测试的模型1相同）。运行上述模型后，我们可以查看拉格朗日乘数测试的结果。与前两个测试不同，前两个测试主要用于在向模型中添加多个变量时评估模型拟合的变化，而拉格朗日乘数测试可以用于测试模型拟合的预期变化（如果一个或多个参数为当前受限的被允许自由估计。在我们的示例中，这意味着测试向模型添加 math和science 是否会显着改善模型拟合。图10是分数测试的输出。表中的前两行提供了将单个变量添加到模型的测试统计信息（或分数）。为了继续我们的示例，我们将重点关注第三行中标记为“同时测试”的结果，该结果显示了在模型中同时添加数学和科学的测试统计量。将数学和科学都添加到模型的测试统计量为35.51，它是卡方分布的，自由度等于要添加到模型中的变量的数量，因此在我们的示例中为2。p值低于典型的截止值0.05，表明在模型中包含数学和科学变量将在模型拟合方面产生统计学上的显着改善。该结论与LR和Wald检验的结果一致。如上所述，这三个测试都解决了相同的基本问题，即是否将参数约束为零（即忽略这些预测变量）会降低模型的拟合度？它们的区别在于他们如何回答该问题。如您所见，为了执行似然比检验，必须估计一个人希望比较的两个模型。 Wald和Lagrange乘数（或分数）检验的优势在于，它们近似于LR检验，但只需要估计一个模型即可。 Wald和Lagrange乘数检验在渐近上都等同于LR检验，也就是说，随着样本量变得无限大，Wald和Lagrange乘数检验统计的值将越来越接近LR检验的检验统计量。在有限的样本中，这三个样本往往会产生不同的检验统计量，但通常得出相同的结论。三种检验之间的有趣关系是，当模型为线性时，三种检验统计量具有以下关系Wald≥LR≥评分（Johnston和DiNardo 1997，第150页）。也就是说，Wald检验统计量将始终大于LR检验统计量，而LR检验统计量将始终大于分数测试中的检验统计量。当计算能力受到更大限制，并且许多模型需要很长时间才能运行时，能够使用单个模型来近似LR测试是一个相当大的优势。如今，对于大多数研究人员可能想要比较的模型而言，计算时间已不再是问题，我们通常建议在大多数情况下运行似然比检验。这并不是说永远不要使用Wald或成绩测试。例如，Wald检验通常用于对用于建模回归中的预测变量的虚拟变量集执行多自由度测试（有关更多信息，请参阅我们的《关于Stata，SPSS和SAS回归的网络手册》，特别是第3章–使用分类预测变量进行回归。）分数测试的优势在于，当候选变量数量很大时，它可用于搜索省略的变量。更好地了解这三个测试之间如何关联以及它们如何不同的一种方法是查看它们所测试内容的图形表示。上图说明了这三个测试的每一个。沿x轴（标记为“ a”）是参数a的可能值（在我们的示例中，这是数学或科学的回归系数）。沿y轴是与a的那些值相对应的对数似然值。 LR测试将模型的对数似然率与参数a的值（被限制为某个值（在我们的示例中为零））与自由估计a的模型进行比较。它通过比较两个模型的可能性高度来查看差异是否在统计上显着（请记住，可能性值越高表示拟合越好）。在上图中，这对应于两条虚线之间的垂直距离。相反，Wald测试将参数估计值a-hat与a_0进行比较； a_0是零假设下a的值，通常假设a =0。如果a-hat与a_0明显不同，则表明自由估计a（使用a-hat）可显着改善模型拟合。在图中，这表示为x轴上a_0和a-hat之间的距离（由实线突出显示）。最后，当a受到约束（在我们的示例中为零）时，得分测试着眼于对数似然率的斜率。也就是说，它查看了在（零）假设的a值处改变可能性的速度。在上图中，这显示为a_0处的切线。 2023-06-08 16:10:091

道格拉斯回归需要什么数据 1、LS最小二乘法，可以用于线性回归模型、ARMA等模型2、TSLS两阶段最小二乘法3、GMM广义矩估计方法4、ARCH自回归条件异方差，还可以估计其他各种ARCH模型，如 GARCH、T- GARCH5、BINARY用于估计二元选择模型，包括 Logit、 Probit和 Extreme value模型6、ORDERED用于估计有序选择模型7、CENSORED用于估计删截模型8、COUNT用于估计计数模型9、OREG分位数回归分析方法10、GLM义线性模型分析方法11、STEPLS分段最小二乘分析方法12、ROBUSTLS稳健最小二乘分析方法13、HECKIT赫克曼备择模型14、BREAKLS带断点的最小二乘分析方法15、THRESHOLD门限回归分析16、SWTCHREG转换回归17、ARDL自回归分布滞后模型18、IDAS混合数据抽样1TSLS两阶段最小二乘法一个典型的线性回归模型:y= β0 + β1x1+ βX + ε(1)，这里y为被解释变量，x1为自变量，或者解释变量，也即“因”。大写的 X为外生控制项向量( 也即一组假定为外生的其他控制变量，例如年龄、性别等等) ，ε则为误差项。如果ε与x1不相关，那么我们可以利用OLS 模型对方程进行无偏估计。然而，如果一个重要变量x2被模型(1) 遗漏了，且x1和x2也相关，那么对β1的OLS 估计值就必然是有偏的。此时，x1被称作“内生”的解释变量，这就是 “内生性”问题。遇到“内生性”问题肿木办？有一个方法就是找工具变量Z。如果存在内生性，则称解释变量为 “内生变量”(endogenousvariable)；反之，则称为 “外生变量”(exogenous variable)。内生性的严重后果是使得 OLS估计量不一致(inconsistent)，即无论样本容量多大，OLS 估计量也不会收敛至真实的参数值。在计量经济学中，把所有与扰动项相关的解释变量都称为“内生变量”。这与一般经济学理论中的定义有所不同。1。与误差项相关的变量称为内生变量(endogenous variable)。2。与误差项不相关的变量称为外生变量(exogenous variable)。二阶段最小二乘法Eviews操作介绍：二阶段最小二乘法的第一阶段就是利用原模型的内生解释变量对工具变量进行OLS，得到解释变量的拟合值；第二步，利用得到解释变量的拟合值对原模型进行最小二乘法，从而得到方程模型的估计值，这样就可以消除内生性的影响。原文阅读：一文读懂内生性问题之二阶段最小二乘法(TSLS)Eviews操作2THRESHOLD门限回归分析阈值回归模型描述了一种简单的非线性回归模型。 TR规范很受欢迎，因为它们很容易。估计和解释，并能产生有趣的非线性和丰富的动力学。在TR的应用中，有样品分裂，多重平衡。非常流行的阈值自回归(TAR)和自激励阈值自回归(SETAR)(Hansen 1999, 2011;波特2003)。在功能强大的特性中，Eviews有选择最佳阈值TR模型选择工具。能够从候选列表中，并且能够指定两种状态的变化和非变化的变量。例如，您可以轻松地指定两种模式的门限模型并允许EViews 估计最优变量和参数、阈值、系数和协方差。并对变化和回归参数的估计。门限回归模型是一种重要的结构变化模型，当观测变量通过未知门限时，函数模型具有分段线性的特征，并且区制发生变化。门限回归模型很容易估计和解释，再加上它具备动态性，所以应用比较广泛。门限回归能够应用于多种模型中。门限变量qt和解释变量Xt、Zt的特征决定了门限函数的类型。如果qt是yt的d期滞后值，则称为自激励(SE)模型；如果门限变量不是被解释变量的滞后变量，则为一般的门限回归(TR)模型。如果解释变量Xt、Zt中仅包含截距项和滞后的被解释变量，则表示自回归(AR)模型。在此基础上易于得出，自激励门限自回归(SETAR)模型中则包括自回归设定和滞后被解释变量两类要素。639e4823edb8cc50111e59d9a9ba7a4c.pngdbce26b1caac28775a1291712294ae11.png8cdcef5788cc5eca9e09129a190f5132.pngEstimation Output334917e0cecd4f7e210f52597ca3fddd.pngfd2d83ff3028c1da90faeff91056796f.pngCriteria Graph and Table If you select View/Model Selection Summary from an estimated threshold equation you will be offered a choice of displaying a Criteria Graph or a Criteria Table:509f3764eab30874d843fb3810295cf3.png89921a233e35c7229775aef367dd965a.png0ebbe0974a3548f360240d621f2005e1.png3BREAKLS带断点的最小二乘分析方法基本普通最小二乘法假设模型的参数不随观测值的变化而变化。尽管这种假设。结构的变化，以及样本区间参数的变化，在应用时间序列分析中起着重要的作用。因此，有大量的研究针对回归方程中参数结构变动的问题。EViews 8提出了结构变动的线性回归估计工具。在Bai (1997), Bai and Perron (1998)中的断点都是已知，先前指定的。一、Estimating Least Squares with Breakpoints in EViews案例所需数据介绍，本节以hansen_jep为例，具体数据如下：caf32e362e649c0ac5b734a1bdcda664.png要估计一个具有断点的最小二乘方程，请选择Object/New Object….../ Equation or Quick/Estimate Equation，或者从EViews主菜单中选择BREAKLS - Method下拉菜单中带有断点的最小二乘法，或者在命令窗口中简单输入关键字BREAKLS:a8dff76e26477d684b86f49c67f663b8.png接下来，单击Options选项卡，显示计算系数协方差矩阵、断点说明、权重和系数名的附加设置。aafeb487bb386657a01d873c0ceab2bc.pngBreak Specification包括如下选项：The Break specification section of the dialog contains a Method drop-down where you may specify the type of test you wish to perform. You may choose between: u2022 Sequential L+1 breaks vs. L u2022 Sequential tests all subsets u2022 Global L breaks vs. none u2022 L+1 breaks vs. global L u2022 Global information criteria u2022 Fixed number - sequential u2022 Fixed number - global u2022 User-specified这些选项在结构突变检验章节将再次介绍。为了说明断点方程估计的输出，我们使用Han- sen"s (2001)劳动生产率的例子。Hansen的示例使用了1947年2月至2001年4月美国劳动生产率在制造业耐用品行业的测量。工业生产指数与每周平均工时之比增长率。我们估计一个断点模型，使用DDUR与DDUR(-1)和一个常数的回归。输出如下:3b8779fe9ce17e64a967f1201d33f517.pngBreakpoint Specification View显示一个断点回归的总结,该方法用于确定断点。输出的顶部显示断点摘要以及剩下的部分显示了断点确定的中间结果:77b6688e648eb97563890d8583cf6a82.png2dac73483254db7859fa35daa5d5c4a0.png二、Example为了说明这些工具在实践中的使用，我们采用了美国出口实际利率的数据(from Garcia and Perron (1996) that is used as an example by Bai and Perron (2003a).)选择对象/新对象…从主菜单中或在命令行中输入命令断点并单击enter。a2745ee2062aabdd0c8117060d5eebcf.pngNext, click on the Options tab and specify HAC (Newey-West) standard errors, check Allow error distributions to differ across breaks, choose the Bai-Perron Global L breaks vs. none method using the Unweighted-Max F (UDMax) test to determine the number of breaks, and set a Trimming percentage of 15, and a Significance level of 0.05.96b15a35b2722d6ea8d4d1798a4df540.pngLastly, to match the test example in Bai and Perron (2003a), we click on the HAC Options button and set the options to use a Quadratic-Spectral kernel with Andrews automatic bandwidth and single pre-whitening lag:813e82543f980cff9136072fba4706ed.png输出结果为：d85919d0d008bc138d3da17b9abc9cff.png点击视图/实际，拟合，剩余/实际，拟合，残差图，在原始序列和残差的旁边，查看样本内的拟合数据:c80b2f91f30210d4d43b573278853140.png未完待续！◆◆◆◆精彩回顾6f4317c5ad1ee068da228571e7a38922.png点击上图查看：计量经济学小白必修课--网课《高级计量经济学及Eviews应用》震撼上架！9ff111c0b4810753b7b65a81065a7931.png点击上图查看：《初级计量经济学及Stata应用：Stata从入门到进阶》3ec7be2e15086249d5d7ef268047064a.png点击上图查看：《高级计量经济学及Stata应用：Stata回归分析与应用》相关资源：柯布-道格拉斯(Cobb-Douglas)生产函数模型_柯布道格拉斯生产函数...点击阅读全文打开CSDN，阅读体验更佳参与评论请先登录后发表或查看评论matlab进行道格拉斯筛选,柯布-道格拉斯(Cobb-Douglas)生产函数模型.doc...α , β—— K 和 L 的产出弹性. 经济学中著名的柯布-道格拉斯(Cobb-Douglas)生产函数的一般形式为 Q(K , L) = aK α Lβ , 0 < α , β < 1 (1-1) 其中Q, K , L 分别表示产值、资金、劳动力,式中α , β ...[渝粤教育] 九江学院计量经济学参考资料_wx_yuyueshool的博客-CSDN博...B、在柯布—道格拉斯生产函数中,检验规模报酬是否不变。 C、在回归方程中,检验结构是否存在变化。 D、在回归方程中,检验误差项是否服从正态分布。 E、在回归方程中,检验某一参数是否异于零。柯布-道格拉斯（Cobb-Douglas）生产函数模型柯布-道格拉斯（Cobb-Douglas）生产函数模型，齐微，，柯布-道格拉斯生产函数（Cobb-Douglas production function）用来预测国家和地区的工业系统或大企业的生产和分析发展生产的途径的一种经济数Eviews实现ARDL的步骤.docxEviews实现ARDL 自回归分布滞后模型 EViews 9及以上版本提供了ARDL，自回归分布滞后模型的工具，变量包括了滞后变量和常规解释变量。其中，EViews 内置了滞后阶数的选择；协整估计；长期趋势的Bounds检验。CD案例分析本文是对CD案例的一个总结，主要是根据用户消费记录，分析用户消费行为，建立RFM模型，分析复购率、回购率等关键指标。希望对其他产品的线上消费数据分析有一定的借鉴价值。分析过程准备工作（数据集观察与数据清洗）用户消费趋势分析（按月）——每月消费总金额、消费次数、产品购买量、消费人数、用户平均消费金额、用户平均消费次数用户个体消费分析——用户消费金额，产品购买量的描述性统计、用户消费金额和产品购买量分布、用户累计消费金额占比用户消费行为分析——用户第一次消费（首购）时间分布、用户最后一次消费时间分布继续访问回归系数b的经济含义_计量经济学常见问题汇总来源| 本文由计量经济学服务中心整理转载请联系计量经济学相关问题1计量经济学是分析啥的？包含些什么内容？计量经济学的主要用途或目的主要有两个方面：1、理论检验。2、预测应用。研究对象：计量经济学的两大研究对象：横截面数据(Cross-sectional Data)和时间序列数据(Time-series Data)。前者旨在归纳不同经济行为者是否具有相似的行为关联性，以模型参数估计...继续访问[Day2]计量经济学之ARDL模型ARDL模型模型结构建模步骤模型结构 ARDL(p,q1，q2)的结构是u03d5(L,p)yt=β1t(L,q1)x1t+β2t(L,q2)x2t+δWt+utphi(L,p)y_{t}=eta1_{t}(L,q1)x_{1t}+eta2_{t}(L,q2)x_{2t}+delta W_{t}+u_{t}u03d5(L,p)ytu200b=β1tu200b(L,q1)x1tu200b+β2tu200b(L,q2)x2tu200b+δWtu200b+utu200b 建模步骤第一步，建立与该ARDL模型想对应的的ECM模型，并计算其下统计量，以此判断是否存在长期的继续访问eviews怎么回归道格拉斯生产函数_【干货分享】Eviews估计方法汇总1最小二乘法(1)普通最小二乘估计(OLS)：这是使用的最为普遍的模型，基本原理就是估计残差平方和最小化，不予赘述。(2)加权最小二乘估计(WLS) Eviews路径：LS模型设定对话框-----options OLS的假设条件最为严格，其他的估计方法往往是在OLS的某些条件无法满足的前提下进行修正处理的。WLS就是用来修正异方差问题的。在解释变量...继续访问ardl模型stata命令_小白学统计|面板数据分析与Stata应用笔记（三）#文章首发于公众号“如风起”。原文链接：小白学统计|面板数据分析与Stata应用笔记（三）u200bmp.weixin.qq.com面板数据分析与Stata应用笔记整理自慕课上浙江大学方红生教授的面板数据分析与Stata应用课程，笔记中部分图片来自课程截图。笔记内容还参考了陈强教授的《高级计量经济学及Stata应用（第二版）》长面板数据分析上两篇笔记我们讲到了短面板数据分析。短面板数据分析主要关注对不可观...继续访问面板数据分析复习总结一、混合回归和固定效应模型和随机效应模型类型、特点、基本假定、模型估计、模型设定检验、检验判定二、固定效应模型和随机效应模型的不同点三、SUR模型、SWAMY模型、HSiao模型类型、特点、基本假定、模型估计、特点四、平均个体回归模型和平均时间回归模型五、各种检验的优缺点 ...继续访问ardl模型stata命令_二值模型的Stata命令二值模型的 Stata 命令为probit y x1 x2 x3,r (probit 模型) logit y x1 x2 x3,r or (logit 模型) 选择项“r”表示使用稳健标准误(默认为普通标准误)；选择项“or”表示显示几率比(odds ratio)，不显示回归系数。完成 Probit 或 Logit 估计后，可进行预测，计算准确预测的百分比，或计算边际效应：predict y1 (...继续访问ardl模型stata命令_Stata新命令快讯: 有向无环图、模糊倍分法等Stata 连享会：知乎 | 简书 | 码云连享会 u2002 最新专题 u2002 直播编者按：自今日起，Stata 连享会 (公众号 StataChina) 将开设「Stata新命令快讯」专栏，定期推送 SSC 网站上发布的最新命令，对于我们认为重要的命令进行标注。对于您感兴趣的命令，可以直接在 Stata 命令窗口中输入 ssc install 命令名称, replace 进行下载。下载完成...继续访问ARDL模型笔记毕业论文打算用ARDL模型做，所以查了一些资料，虽然以后可能不会再用了，说到底也是一个经验。可能有错误，还望赐教。 1.ARDL：Autoregressive distributed lagged model Yt= a*Yt-1 +b*Xt + c*Xt-1 + ...+ d 是基于自回归的拓展，加入了其他滞后项，在模型的构建上是格兰杰因果的进一步发展，但对于回归结果的显著性并没继续访问8145v5 参数_参数估计一、估计量与估计值、点估计、区间估计1、参数估计：用样本统计量去估计总体的参数。2、估计量：用于估计总体参数的统计量的名称如样本均值，样本比例，样本方差等例如：样本均值就是总体均值的一个估计量3、参数用表示4、估计值：估计参数时计算出来的统计量的具体值如果样本均值 =80，则80就是的估计值5、点估计用样本的估计量的某个取值直接作为总体参数的估计值例如：用样本均值直接作为总体均值的估...继续访问浙江大学【面板数据分析与STATA应用】——第三讲内生性与工具变量法解释变量和误差项存在内生性问题内生性问题来源内生性问题主要来自于三个方面，分别为：遗漏变量、联立性以及度量误差遗漏变量遗漏变量是指可能与解释变量相关的变量，本来应该加以控制，但却没有控制的变量。这些变量最后进入了误差项，从而导致误差项与解释变量相关，进而导致了内生性问题。联立性联立性是指一个计量方程中的核心解释变量A对被解释变量B产生影响，反过来，被解释变量B又对A产生影响。如果B对A有正向的影响，正向冲击就会导致A增加，从而导致核心解释变量A与误差项正相关。如果B对A有负向的影响，正向继续访问最新发布 eviews怎么回归道格拉斯生产函数_受限因变量模型及Eviews应用1前言在现实生活中，有时候会遇到这样的额问题，因变量是连续的，但是会受到某种限制，这时候就不能按照一般的模型进行估计。有时候所谓的因变量的观测值来源于总体的一个受限制的子集，但是却不能完全的反应总体的实际特征，此时需要用到建立首先因变量模型俩腿短总体的特征。例如我们在对居民收入做调查时候，通常会有一个区间，例如大于5万的取一个值，然后小于2000的取一个值。这个时候这个最低的和最高的我们...继续访问基于柯布-道格拉斯生产函数的煤矿产能分析研究正确的产能分析方法对于煤矿优化人员结构,提升效率极为重要。基于柯布-道格拉斯生产函数,以美国井工矿为例,分析了人员投入与产能之间的关系,得出美国井工矿现有人员条件下合理产能区间。对于我国西部优质煤炭产能释放过程中人员结构规划提供了有益借鉴。eviews教程之CES生产函数比较方便快的计算CES生产函数计算步骤及过程。ARDL模型 eviews操作详细分析评论留言说明你的需要。 ARDL模型 eviews操作详细分析继续访问Eviews 8.0＆9.0界面新功能介绍Eviews 8.0＆9.0界面新功能介绍本文其中一些是自己的整理，也有一些是经管之家论坛中一位热心、好学坛友的整理，其中只是简单介绍一下这两个新版本的部分特性，分享出来，有兴趣的看客可以一起学习、进步。 Eviews 8 一、变量显示估计参数界面得到加强，打入头几个词，会有相关关联字段的出现，方便写入变量。二、工作表的详继续访问热门推荐使用Eviews做简单线性回归写论文过程中，发现管理类哟呵发文，大多数是写数理模型，一般刊物上的文章都是提出一个模型，然后使用算例来证明模型的可行性和有效性。但是管理类论文的这套老做法已经很难行的通了。相比之下，经济类的论文发表在一般刊物上的做法就是使用计量经济模型对一些经济现象或规律进行实证研究，相对来讲这套做法仍旧是行得通的。以前轻视回归的我，现在再也不敢轻视回归模型了。因为计量经济学数理模型方法的核心就是回归模型。以前正继续访问eviews命令本命令集几乎涵盖了 Eviews 中所有命令，视图和过程的完整列表我们分为基本命令、矩阵和字符串函数以及编程语言三个面加以介绍，在每一个面的列表按照字母顺序排。eviews柯布道格拉斯生产函数。 2023-06-08 16:10:271

猜你想看

大家在看

配股大同证券 IPO 退市 GDP 新股佣金股票市场