自选择问题和处理效应模型
这里写目录标题
- 自选择问题和处理效应模型
- Tobit 模型假定
- Heckman过程
- 逆米歇尔比率推导过程
- 逆米希尔比率推导过程
- 自选择问题
- 典型事实分析一定要列出来的
- 关于OLS,Heckman-2sls,Heckman三种模型的估计结果对比
- Heckman两阶段算逆米希尔比率分解
- 处理效应模型
自选择问题和处理效应模型
- DGP
- 注意:
这里的概率密度超过了1,这是正常的。概率密度的三原则, - 1是大于等于0;
- 2是积分等于1;
- 对于连续型随机变量,给定一个具体的x值,f(x)并不是该事件发生的概率。而是f(x)描述了在x处的概率密度,即随机变量取值落在x附近单位长度内的概率。
Tobit模型的适用数据
- 简言之,y值有大部分是0(占比还不小),如果直接估计或者删除估计,都是有偏的。那么使用Tobit。
- 观察统计特征的代码
- 下面是理论部分
Tobit 模型假定
-
P
(
y
i
=
0
∣
x
i
)
P(y_i=0|x_i)
P(yi=0∣xi)时
- 这里的示性函数应该是
I
y
i
>
0
I_{y_i>0}
Iyi>0
结论 - 如果用y和截断后的y去reg,都会低估参数值
h tobit
的帮助命令
-
几种模型的对比
-
数据是不是随机缺失还是非随机缺失 问题很大
-
随机缺失,可以直接扔掉,非随机缺失,不能直接扔掉
-
非随机缺失,缺失背后的原因很重要–【模仿学霸表象的学习】
处理效应的随机和非随机
给的例子
- 随机下:1000个样本,抓阄选取400个当实验对象。
- 非随机下:1000个样本,按照一定条件(LEV ROE CG),有条件的充当实验对象。
自选择:
若果在模型中有一个D(虚拟变量),那么一定要考虑取1(实验组),是不是随机选出来的?
Heckman过程
这里面有很多理解的点
但是最重要的:
- 预设的模型,因为各种原因,可能会遗漏变量
逆米歇尔比率推导过程
逆米希尔比率推导过程
注意
λ
(
−
c
)
\lambda(-c)
λ(−c)
- 推广
- 其实就是一个换元,将z换成
u
/
σ
u/\sigma
u/σ
- 读到这里,就解释了为什么逆米希尔比率可以代替“补丁”
自选择问题
一定有两个方程
-
选择方程-样本被观测到的条件
i f z i r + γ i > 0 y c a n b e o b s e r v e d if \space \space \space z_ir+\gamma_i>0 \space \space y \space can \space be \space observed if zir+γi>0 y can be observed
i f z i r + γ i < 0 y c a n ′ t b e o b s e r v e d if \space z_ir+\gamma_i<0 \space \space \space y \space can't \space be \space observed if zir+γi<0 y can′t be observed -
结果方程-构建的X对Y的影响方程
y i = x i β + u i y_i=x_i\beta+u_i yi=xiβ+ui
如果还看不懂 下面是著名的书籍
典型事实分析一定要列出来的
关于OLS,Heckman-2sls,Heckman三种模型的估计结果对比
Heckman两阶段算逆米希尔比率分解
内容小结:
Heckman Correction,又称两阶段方法)。赫克曼矫正法分两个步骤进行:第一步骤,研究者根据管理学理论设计出一个计算企业披露R&D投入概率的模型,而该模型的统计估计结果可以用来预测每个个体的概率;第二步骤,研究者将这些被预测个体概率合并为一个额外的解释变量,与其他控制变量等变量一起来矫正自选择问题。这个比率叫逆米尔斯比率,inverse Mills ration, imr,也就是说,在第一步计算出imr,在第二步把imr当作一个控制变量。
以企业R&D投入问题为例,假设全样本是1000家公司,其中800家公司披露了其R&D投入。
第一阶段的模型,是一个包括全样本(1000家)的Probit模型,用来估计一家公司是否会披露其R&D投入的概率。这里的因变量是二元的,表示是否披露R&D投入;自变量是一些会影响是否披露R&D的外生变量,比如其他收入营业收入,杠杆率,公司规模,所属行业等等。然后根据这个Probit模型,为每一个样本计算出imr,imr作用是为每一个样本计算出一个用于修正样本选择偏差的值。
第二阶段,在原来的回归方程,也就是原来只有800家公司的样本的方程假如imr作为控制变量,其他都不变,然后估计出回归参数。这时不管imr显著不显著都不重要,imr显著说明样本选择偏差的确影响了你最初模型的估计,这正表明了使用Heckman两步法纠正样本选择偏差的必要性。imr不显著说明原模型不存在严重的样本选择偏差,这时Heckman第二步得到的结果应该与原模型得到的结果差不多。(关于imr的显著性是否说明样本选择偏差存在目前还有争议,不过imr不是关注的变量)。第二步关注的对象是核心解释变量是否显著。只要核心解释变量显著,就说明结果稳健。
*描述性统计数据
sum age educ married children wage
*简单的ols模型,存在选择性偏误
reg wage educ age
est store OLS
*第一种方法 heckman maximum likelihood
heckman wage educ age, select(married children educ age) //默认最大似然估计
est store HeckMLE
*第二种方法 heckman two-step all-in-one 不可以进行cluster调整
heckman wage educ age, select(married children educ age) twostep
est store Heck2s
*第二种方法 heckman two-step step-by-step 可以进行cluster调整
probit work married children educ age
est store First
predict y_hat, xb
gen pdf = normalden(y_hat) //概率密度函数
gen cdf = normal(y_hat) //累积分布函数
gen imr = pdf/cdf //计算逆米尔斯比率
reg wage educ age imr if work == 1 //女性工作子样本
est store Second
vif //方差膨胀因子
*对比结果
local m "OLS HeckMLE Heck2s First Second"
esttab `m', mtitle(`m') nogap compress pr2 ar2
代码来源:
https://bbs.pinggu.org/thread-10568456-1-1.html
如果你觉得你的样本与大的样本有一些区别,就可以用Heckman方程纠偏。
处理效应模型
这是的y变成了0-1,
同时,mills “补丁”也有区别