当前位置：首页 > article >正文

【基础还得练】EM算法中的E

article 2025/3/1 20:55:31

在 EM 算法中，E 步的核心是计算 隐变量 $z$ 的后验分布的期望。它的目的在于通过当前的模型参数估计，计算对隐变量 $z$ 的“猜测”，并在 M 步中利用这个猜测来优化模型参数。

EM 算法的两步拆解

E步（Expectation, 期望步）：
在这一步，我们的目标是计算 数据的完整似然函数的期望，条件是基于当前的模型参数 $\theta^{(t)}$ 。
- 完整数据对数似然（假设我们观测到了隐变量 $z$ ）是：
  $\log p(x, z; \theta)$
- 由于 $z$ 是未知的隐变量，我们计算其条件分布（后验概率）：
  $\theta^{(t)})$
  并利用它对 $\log p(x, z; \theta)$ 求期望，定义为：
  $Q(\theta | \theta^{(t)}) = \mathbb{E}_{p(z | x; \theta^{(t)})} \left[ \log p(x, z; \theta) \right].$
  直观上，这是通过当前参数下的 $z$ 的分布，对完整数据的对数似然函数“加权平均”，以便在 M 步中优化。
- 具体公式：
  $Q(\theta | \theta^{(t)}) = \sum_{z} p(z | x; \theta^{(t)}) \log p(x, z; \theta).$
  （对于连续 $z$ ，求和替换为积分。）
M步（Maximization, 最大化步）：
在这一阶段，我们最大化 E 步得到的期望 $Q(\theta | \theta^{(t)})$ ，以找到新的参数估计：
$\theta^{(t+1)} = \arg\max_\theta Q(\theta | \theta^{(t)}).$

E 步为什么是“期望”？

期望是相对于 $z$ 的分布 $\theta^{(t)})$ 来求的。换句话说，我们通过当前的模型参数 $\theta^{(t)}$ ，计算隐变量 $z$ 的后验概率分布，并使用这个分布对 $\log p(x, z; \theta)$ 加权平均，得到 $Q(\theta | \theta^{(t)})$ 。这是对隐变量的“软归属”的期望，而不是直接假设 $z$ 取某个具体值。