【初识扫盲】逆概率加权
我们正在处理一个存在缺失数据的回归模型,并且希望采用一种非参数的逆概率加权方法来调整估计,以应对这种缺失数据的情况。
首先,我们需要明确问题的背景。我们有样本 { ( Y i , X i , r i ) : i = 1 , … , n } \left\{\left(Y_i, \boldsymbol{X}_i, r_i\right): i=1, \ldots, n\right\} {(Yi,Xi,ri):i=1,…,n},其中 Y i Y_i Yi 是因变量, X i \boldsymbol{X}_i Xi 是自变量,而 r i r_i ri 是一个指示变量:如果 Y i Y_i Yi 被观测到,则 r i = 1 r_i = 1 ri=1,否则 r i = 0 r_i = 0 ri=0。缺失机制是随机的,即 r i r_i ri 以概率 π i = π ( X i ) \pi_i = \pi(\boldsymbol{X}_i) πi=π(Xi) 服从伯努利分布,且与 X i \boldsymbol{X}_i Xi 独立。
关键在于,如果我们只使用完全数据(即 r i = 1 r_i = 1 ri=1 的数据),估计结果可能会有偏差,因为缺失数据并不是完全随机的。为了纠正这一点,我们采用逆概率加权法,通过加权来平衡观测数据,以反映整个数据集的情况。
目标函数被修改为:
β ^ h = arg min β ∈ R p ∑ i = 1 n r i π ( X i ) M \hat{\boldsymbol{\beta}}_h = \arg \min_{\boldsymbol{\beta} \in \mathbb{R}^p} \sum_{i=1}^n \frac{r_i}{\pi\left(\boldsymbol{X}_i\right)} M β^h=argβ∈Rpmini=1∑nπ(Xi)riM
让我们逐步解析这个目标函数。
-
逆概率加权:项 r i π i \frac{r_i}{\pi_i} πiri 是逆概率加权的关键。它通过除以观测概率 π i \pi_i πi 来加权每个观测数据点。这样做的目的是,那些更有可能被观测到的数据点会被赋予更高的权重,从而在估计过程中得到更多的关注。这有助于纠正由于缺失数据引入的偏差。
-
函数 M M M:一个目标函数
-
目标函数:整个目标函数是在所有样本上最小化加权和。即使某些 Y i Y_i Yi 缺失,我们也会对所有样本进行求和,但只有当 r i = 1 r_i = 1 ri=1 时,即 Y i Y_i Yi 被观测到时,才会对求和有贡献。
-
期望条件:提到的期望条件 E { r i π i − 1 ∣ X i } = 0 E\left\{\left.\frac{r_i}{\pi_i} - 1 \right| \boldsymbol{X}_i\right\} = 0 E{πiri−1 Xi}=0 表明,逆概率加权调整在给定 X i \boldsymbol{X}_i Xi 的情况下,平均而言是无偏的。这是因为:
E { r i π i ∣ X i } = E ( r i ∣ X i ) π i = π i π i = 1 E\left\{\frac{r_i}{\pi_i} \mid \boldsymbol{X}_i\right\} = \frac{E(r_i \mid \boldsymbol{X}_i)}{\pi_i} = \frac{\pi_i}{\pi_i} = 1 E{πiri∣Xi}=πiE(ri∣Xi)=πiπi=1
因此, E { r i π i − 1 ∣ X i } = 0 E\left\{\frac{r_i}{\pi_i} - 1 \mid \boldsymbol{X}_i\right\} = 0 E{πiri−1∣Xi}=0,这意味着加权项在给定 X i \boldsymbol{X}_i Xi 的情况下,平均而言是中性的,从而有助于无偏估计。
这描述了如何通过逆概率加权法调整回归的目标函数,以处理缺失数据。通过为每个观测数据点分配一个与其观测概率成反比的权重,我们确保估计结果不会因数据缺失机制而产生偏差。
这种方法特别有用,因为它允许我们在不完全排除缺失数据的情况下,有效地利用所有可用数据,从而提高估计的效率和可靠性。
该目标函数通过逆概率加权法调整回归,以处理缺失数据,确保估计结果无偏且高效。 \boxed{ \text{该目标函数通过逆概率加权法调整回归,以处理缺失数据,确保估计结果无偏且高效。} } 该目标函数通过逆概率加权法调整回归,以处理缺失数据,确保估计结果无偏且高效。
这里提到的随机缺失是什么意思?详细解释一下这里的逆概率加权是什么意思,为什么期望是那样的?
我们来详细理解一下“随机缺失”和“逆概率加权”这两个概念,以及为什么在给定 X i \boldsymbol{X}_i Xi的情况下,期望 E { r i π i − 1 ∣ X i } = 0 E\left\{\left.\frac{r_i}{\pi_i} - 1 \right| \boldsymbol{X}_i\right\} = 0 E{πiri−1 Xi}=0。
首先,随机缺失(Missing at Random, MAR) 是指数据的缺失机制与未观测到的数据无关,但可能与已观测到的数据相关。换句话说,给定已观测到的变量 X i \boldsymbol{X}_i Xi,数据是否缺失仅取决于 X i \boldsymbol{X}_i Xi,而不取决于未观测到的 Y i Y_i Yi。这一假设非常重要,因为它允许我们使用已观测到的信息来调整缺失数据的影响,从而减少估计偏差。
接下来,逆概率加权(Inverse Probability Weighting, IPW) 是一种处理缺失数据的方法,通过为每个观测到的数据点分配一个权重,这个权重是其被观测到的概率的倒数。具体来说,如果一个数据点被观测到的概率是 π i \pi_i πi,那么它的权重就是 1 π i \frac{1}{\pi_i} πi1。这样做的目的是使每个数据点在分析中的权重与其被观测到的概率成反比,从而平衡观测数据,使其更具代表性。
现在,我们来探讨为什么在给定 X i \boldsymbol{X}_i Xi的情况下,期望 E { r i π i − 1 ∣ X i } = 0 E\left\{\left.\frac{r_i}{\pi_i} - 1 \right| \boldsymbol{X}_i\right\} = 0 E{πiri−1 Xi}=0。我们逐步分析如下:
E { r i π i − 1 ∣ X i } = E { r i π i ∣ X i } − E { 1 ∣ X i } E\left\{\left.\frac{r_i}{\pi_i} - 1 \right| \boldsymbol{X}_i\right\} = E\left\{\left.\frac{r_i}{\pi_i} \right| \boldsymbol{X}_i\right\} - E\left\{1 \mid \boldsymbol{X}_i\right\} E{πiri−1 Xi}=E{πiri Xi}−E{1∣Xi}
由于 E { 1 ∣ X i } = 1 E\left\{1 \mid \boldsymbol{X}_i\right\} = 1 E{1∣Xi}=1,我们只需计算 E { r i π i ∣ X i } E\left\{\left.\frac{r_i}{\pi_i} \right| \boldsymbol{X}_i\right\} E{πiri Xi}。
根据随机缺失假设, r i r_i ri在给定 X i \boldsymbol{X}_i Xi的条件下服从伯努利分布,即 r i ∣ X i ∼ B ( π i ) r_i \mid \boldsymbol{X}_i \sim \text{B}(\pi_i) ri∣Xi∼B(πi)。因此,
E { r i ∣ X i } = π i E\left\{\left. r_i \right| \boldsymbol{X}_i \right\} = \pi_i E{ri∣Xi}=πi
于是,
E { r i π i ∣ X i } = E { r i ∣ X i } π i = π i π i = 1 E\left\{\left.\frac{r_i}{\pi_i} \right| \boldsymbol{X}_i\right\} = \frac{E\left\{\left. r_i \right| \boldsymbol{X}_i \right\}}{\pi_i} = \frac{\pi_i}{\pi_i} = 1 E{πiri Xi}=πiE{ri∣Xi}=πiπi=1
因此,
E { r i π i − 1 ∣ X i } = 1 − 1 = 0 E\left\{\left.\frac{r_i}{\pi_i} - 1 \right| \boldsymbol{X}_i\right\} = 1 - 1 = 0 E{πiri−1 Xi}=1−1=0
这表明,逆概率加权调整在给定 X i \boldsymbol{X}_i Xi的条件下,平均而言是无偏的。通过这种方式,我们能够有效地处理缺失数据,减少估计偏差,提高分析的准确性。
希望这些解释能够帮助你更好地理解这些概念及其背后的数学原理。
假设 r i r_i ri 服从参数为 π i \pi_i πi 的伯努利分布:
E { r i ∣ X i } = π i E\left\{\left. r_i \right| \boldsymbol{X}_i \right\} = \pi_i E{ri∣Xi}=πi
因此,
E { r i π i ∣ X i } = 1 π i E { r i ∣ X i } = π i π i = 1 E\left\{\left. \frac{r_i}{\pi_i} \right| \boldsymbol{X}_i \right\} = \frac{1}{\pi_i} E\left\{\left. r_i \right| \boldsymbol{X}_i \right\} = \frac{\pi_i}{\pi_i} = 1 E{πiri Xi}=πi1E{ri∣Xi}=πiπi=1
由此可得,
E { r i π i − 1 ∣ X i } = 1 − 1 = 0 E\left\{\left. \frac{r_i}{\pi_i} - 1 \right| \boldsymbol{X}_i \right\} = 1 - 1 = 0 E{πiri−1 Xi}=1−1=0
这表明,逆概率加权调整项 r i π i \frac{r_i}{\pi_i} πiri 在给定 X i \boldsymbol{X}_i Xi 的条件下,其期望值为 1,因此其中心化版本 r i π i − 1 \frac{r_i}{\pi_i} - 1 πiri−1 的期望值为零。这意味着,平均而言,逆概率加权调整不会引入偏差,从而确保估计量在给定 X i \boldsymbol{X}_i Xi 的条件下保持无偏性。
总结如下:
-
随机缺失(MAR):数据的缺失仅依赖于已观测的数据,而不依赖于未观测的数据,这使得我们能够基于观测数据的概率来调整缺失数据的影响。
-
逆概率加权(IPW):通过将每个观测数据点的权重设置为其被观测概率的倒数,我们能够平衡数据,减少因缺失数据引入的偏差。
-
期望条件:逆概率加权调整项在给定 X i \boldsymbol{X}_i Xi 的情况下,平均值为 1,确保了估计的无偏性。
随机缺失意味着缺失仅依赖于已观测的数据,逆概率加权通过使用被观测概率的倒数作为权重来调整缺失数据,确保在给定 X i 的情况下,期望调整项的平均值为零,从而保证估计的无偏性。 \boxed{ \text{随机缺失意味着缺失仅依赖于已观测的数据,逆概率加权通过使用被观测概率的倒数作为权重来调整缺失数据,确保在给定 } \boldsymbol{X}_i \text{ 的情况下,期望调整项的平均值为零,从而保证估计的无偏性。} } 随机缺失意味着缺失仅依赖于已观测的数据,逆概率加权通过使用被观测概率的倒数作为权重来调整缺失数据,确保在给定 Xi 的情况下,期望调整项的平均值为零,从而保证估计的无偏性。
上面的推导我基本明白了,但是为什么期望为0就是无偏呢?无偏性难道不是估计量的期望等于真参数嘛?
无偏性通常是指估计量的期望等于真实参数值。但在这里,我们讨论的是逆概率加权调整项的期望为零,这和无偏性有什么关系呢?
让我试着理清这个逻辑。
首先,我们有一个估计量 θ ^ \hat{\theta} θ^,如果它是无偏的,那么:
E { θ ^ } = θ E\left\{ \hat{\theta} \right\} = \theta E{θ^}=θ
在这个具体的情境中,我们的目标是通过逆概率加权调整目标函数来得到一个无偏的估计量。具体来说,我们使用了加权后的目标函数:
∑ i = 1 n r i π i M \sum_{i=1}^n \frac{r_i}{\pi_i} M i=1∑nπiriM
这里的 r i π i \frac{r_i}{\pi_i} πiri 是逆概率加权调整项。我们已经证明了:
E { r i π i − 1 ∣ X i } = 0 E\left\{\left. \frac{r_i}{\pi_i} - 1 \right| \boldsymbol{X}_i \right\} = 0 E{πiri−1 Xi}=0
也就是说, r i π i \frac{r_i}{\pi_i} πiri 的期望值在给定 X i \boldsymbol{X}_i Xi 的情况下是 1。
那么,这如何保证我们的估计量是无偏的呢?
让我们考虑一下估计量的期望。假设我们的估计量是:
β ^ h = arg min β ∑ i = 1 n r i π i M \hat{\beta}_h = \arg \min_{\beta} \sum_{i=1}^n \frac{r_i}{\pi_i} M β^h=argβmini=1∑nπiriM
为了证明 β ^ h \hat{\beta}_h β^h 是无偏的,我们需要证明:
E { β ^ h } = β E\left\{ \hat{\beta}_h \right\} = \beta E{β^h}=β
直接计算这个期望可能比较复杂,但我们可以从目标函数的角度来考虑。如果调整项 r i π i \frac{r_i}{\pi_i} πiri 的期望为 1,那么在期望意义上,加权后的目标函数与未加权的目标函数是一致的:
E { ∑ i = 1 n r i π i M } = ∑ i = 1 n E { r i π i } M = ∑ i = 1 n M E\left\{ \sum_{i=1}^n \frac{r_i}{\pi_i} M \right\} = \sum_{i=1}^n E\left\{ \frac{r_i}{\pi_i} \right\} M = \sum_{i=1}^n M E{i=1∑nπiriM}=i=1∑nE{πiri}M=i=1∑nM
这表明,逆概率加权调整项在期望上没有引入额外的偏差,因此最小化加权目标函数应该能够得到与最小化真实目标函数相同的估计量,从而保证估计量的无偏性。
换句话说,虽然我们是在处理缺失数据,通过逆概率加权调整,我们确保了在期望上,估计量的行为与没有缺失数据时是一致的。因此,即使数据有缺失,估计量的期望仍然等于真实参数值,从而保证了无偏性。
总结一下:
-
逆概率加权调整项的期望为 1:这确保了加权后的目标函数在期望上与未加权的目标函数一致。
-
无偏性:因为加权目标函数的期望没有引入额外的偏差,估计量在期望上等于真实参数值。
逆概率加权调整项的期望为1,确保了加权目标函数在期望上与真实目标函数一致,从而保证了估计量的无偏性。 \boxed{ \text{逆概率加权调整项的期望为1,确保了加权目标函数在期望上与真实目标函数一致,从而保证了估计量的无偏性。} } 逆概率加权调整项的期望为1,确保了加权目标函数在期望上与真实目标函数一致,从而保证了估计量的无偏性。
这里的 π i \pi_i πi是什么意思?是指的第 i i i个样本的概率吗, 如何获得呢?
让我来解释一下 π i \pi_i πi 的含义。
在前面的讨论中, π i \pi_i πi 被定义为 r i r_i ri 为 1 的概率,即 Y i Y_i Yi 被观测到的概率。具体来说:
π i = π ( X i ) = P ( r i = 1 ∣ X i ) \pi_i = \pi(\boldsymbol{X}_i) = P(r_i = 1 \mid \boldsymbol{X}_i) πi=π(Xi)=P(ri=1∣Xi)
因此, π i \pi_i πi 表示第 i i i 个样本的 Y i Y_i Yi 被观测到的条件概率,这个概率依赖于第 i i i 个样本的协变量 X i \boldsymbol{X}_i Xi。
在随机缺失(MAR)的假设下,缺失机制仅依赖于已观测的数据 X i \boldsymbol{X}_i Xi,而不依赖于未观测的 Y i Y_i Yi。这使得 π i \pi_i πi 可以基于 X i \boldsymbol{X}_i Xi 来建模和估计,从而允许我们使用逆概率加权等方法来调整缺失数据的影响。
总结一下, π i \pi_i πi 是第 i i i 个样本的 Y i Y_i Yi 被观测到的概率,具体为:
π i = P ( r i = 1 ∣ X i ) \boxed{ \pi_i = P(r_i = 1 \mid \boldsymbol{X}_i) } πi=P(ri=1∣Xi)