当前位置：首页 > article >正文

自选择问题和处理效应模型

article 2025/4/2 8:58:48

这里写目录标题

自选择问题和处理效应模型
- - - Tobit 模型假定
    - Heckman过程
    - 逆米歇尔比率推导过程
    - 逆米希尔比率推导过程
    - 自选择问题
    - 典型事实分析一定要列出来的
    - 关于OLS，Heckman-2sls，Heckman三种模型的估计结果对比
    - Heckman两阶段算逆米希尔比率分解
处理效应模型

自选择问题和处理效应模型

在这里插入图片描述

DGP
注意：
这里的概率密度超过了1，这是正常的。概率密度的三原则，
1是大于等于0；
2是积分等于1；
对于连续型随机变量，给定一个具体的x值，f(x)并不是该事件发生的概率。而是f(x)描述了在x处的概率密度，即随机变量取值落在x附近单位长度内的概率。

在这里插入图片描述

在这里插入图片描述
Tobit模型的适用数据

简言之，y值有大部分是0（占比还不小），如果直接估计或者删除估计，都是有偏的。那么使用Tobit。
观察统计特征的代码
下面是理论部分

Tobit 模型假定

在这里插入图片描述

$P(y_i=0|x_i)$ 时
这里的示性函数应该是 $I_{y_i>0}$

结论
如果用y和截断后的y去reg，都会低估参数值

在这里插入图片描述

h tobit的帮助命令
在这里插入图片描述

几种模型的对比
数据是不是随机缺失还是非随机缺失 问题很大
随机缺失，可以直接扔掉，非随机缺失，不能直接扔掉
非随机缺失，缺失背后的原因很重要–【模仿学霸表象的学习】

处理效应的随机和非随机
给的例子

随机下：1000个样本，抓阄选取400个当实验对象。
非随机下：1000个样本，按照一定条件（LEV ROE CG），有条件的充当实验对象。

自选择：
若果在模型中有一个D（虚拟变量），那么一定要考虑取1（实验组），是不是随机选出来的？

Heckman过程

这里面有很多理解的点
但是最重要的：

预设的模型，因为各种原因，可能会遗漏变量

在这里插入图片描述

逆米歇尔比率推导过程

在这里插入图片描述

逆米希尔比率推导过程

在这里插入图片描述
注意 $\lambda(-c)$

在这里插入图片描述

推广
其实就是一个换元，将z换成 $u/\sigma$
读到这里，就解释了为什么逆米希尔比率可以代替“补丁”

自选择问题

一定有两个方程

选择方程-样本被观测到的条件
$\space \space \space z_ir+\gamma_i>0 \space \space y \space can \space be \space observed$
$\space z_ir+\gamma_i<0 \space \space \space y \space can't \space be \space observed$
结果方程-构建的X对Y的影响方程

$y_i=x_i\beta+u_i$

如果还看不懂下面是著名的书籍
在这里插入图片描述

典型事实分析一定要列出来的

在这里插入图片描述

关于OLS，Heckman-2sls，Heckman三种模型的估计结果对比

在这里插入图片描述

Heckman两阶段算逆米希尔比率分解

在这里插入图片描述

内容小结：
在这里插入图片描述

Heckman Correction，又称两阶段方法）。赫克曼矫正法分两个步骤进行：第一步骤，研究者根据管理学理论设计出一个计算企业披露R&D投入概率的模型，而该模型的统计估计结果可以用来预测每个个体的概率；第二步骤，研究者将这些被预测个体概率合并为一个额外的解释变量，与其他控制变量等变量一起来矫正自选择问题。这个比率叫逆米尔斯比率，inverse Mills ration， imr，也就是说，在第一步计算出imr，在第二步把imr当作一个控制变量。

以企业R&D投入问题为例，假设全样本是1000家公司，其中800家公司披露了其R&D投入。

第一阶段的模型，是一个包括全样本（1000家）的Probit模型，用来估计一家公司是否会披露其R&D投入的概率。这里的因变量是二元的，表示是否披露R&D投入；自变量是一些会影响是否披露R&D的外生变量，比如其他收入营业收入，杠杆率，公司规模，所属行业等等。然后根据这个Probit模型，为每一个样本计算出imr，imr作用是为每一个样本计算出一个用于修正样本选择偏差的值。

第二阶段，在原来的回归方程，也就是原来只有800家公司的样本的方程假如imr作为控制变量，其他都不变，然后估计出回归参数。这时不管imr显著不显著都不重要，imr显著说明样本选择偏差的确影响了你最初模型的估计，这正表明了使用Heckman两步法纠正样本选择偏差的必要性。imr不显著说明原模型不存在严重的样本选择偏差，这时Heckman第二步得到的结果应该与原模型得到的结果差不多。(关于imr的显著性是否说明样本选择偏差存在目前还有争议，不过imr不是关注的变量)。第二步关注的对象是核心解释变量是否显著。只要核心解释变量显著，就说明结果稳健。

*描述性统计数据
sum age educ married children wage

*简单的ols模型，存在选择性偏误
reg wage educ age
est store OLS

*第一种方法  heckman maximum likelihood
heckman wage educ age, select(married children educ age) //默认最大似然估计  
est store HeckMLE

*第二种方法  heckman two-step  all-in-one 不可以进行cluster调整
heckman wage educ age, select(married children educ age) twostep  
est store Heck2s

*第二种方法  heckman two-step  step-by-step 可以进行cluster调整
probit work married children educ age
est store First  
predict y_hat, xb
gen pdf = normalden(y_hat)  //概率密度函数
gen cdf = normal(y_hat)     //累积分布函数
gen imr = pdf/cdf           //计算逆米尔斯比率
reg  wage educ age imr if work == 1  //女性工作子样本
est store Second
vif  //方差膨胀因子

*对比结果
local m "OLS HeckMLE Heck2s First Second"  
esttab `m', mtitle(`m') nogap compress pr2 ar2