当前位置: 首页 > article >正文

【基础还得练】EM算法中的E

在 EM 算法中,E 步的核心是计算 隐变量 z z z 的后验分布的期望。它的目的在于通过当前的模型参数估计,计算对隐变量 z z z 的“猜测”,并在 M 步中利用这个猜测来优化模型参数。

EM 算法的两步拆解

  1. E步(Expectation, 期望步)
    在这一步,我们的目标是计算 数据的完整似然函数的期望,条件是基于当前的模型参数 θ ( t ) \theta^{(t)} θ(t)

    • 完整数据对数似然(假设我们观测到了隐变量 z z z)是:
      log ⁡ p ( x , z ; θ ) \log p(x, z; \theta) logp(x,z;θ)

    • 由于 z z z 是未知的隐变量,我们计算其条件分布(后验概率):
      p ( z ∣ x ; θ ( t ) ) p(z | x; \theta^{(t)}) p(zx;θ(t))
      并利用它对 log ⁡ p ( x , z ; θ ) \log p(x, z; \theta) logp(x,z;θ) 求期望,定义为:
      Q ( θ ∣ θ ( t ) ) = E p ( z ∣ x ; θ ( t ) ) [ log ⁡ p ( x , z ; θ ) ] . Q(\theta | \theta^{(t)}) = \mathbb{E}_{p(z | x; \theta^{(t)})} \left[ \log p(x, z; \theta) \right]. Q(θθ(t))=Ep(zx;θ(t))[logp(x,z;θ)].
      直观上,这是通过当前参数下的 z z z 的分布,对完整数据的对数似然函数“加权平均”,以便在 M 步中优化。

    • 具体公式:
      Q ( θ ∣ θ ( t ) ) = ∑ z p ( z ∣ x ; θ ( t ) ) log ⁡ p ( x , z ; θ ) . Q(\theta | \theta^{(t)}) = \sum_{z} p(z | x; \theta^{(t)}) \log p(x, z; \theta). Q(θθ(t))=zp(zx;θ(t))logp(x,z;θ).
      (对于连续 z z z,求和替换为积分。)

  2. M步(Maximization, 最大化步)
    在这一阶段,我们最大化 E 步得到的期望 Q ( θ ∣ θ ( t ) ) Q(\theta | \theta^{(t)}) Q(θθ(t)),以找到新的参数估计:
    θ ( t + 1 ) = arg ⁡ max ⁡ θ Q ( θ ∣ θ ( t ) ) . \theta^{(t+1)} = \arg\max_\theta Q(\theta | \theta^{(t)}). θ(t+1)=argθmaxQ(θθ(t)).


E 步为什么是“期望”?

期望是相对于 z z z 的分布 p ( z ∣ x ; θ ( t ) ) p(z | x; \theta^{(t)}) p(zx;θ(t)) 来求的。换句话说,我们通过当前的模型参数 θ ( t ) \theta^{(t)} θ(t),计算隐变量 z z z 的后验概率分布,并使用这个分布对 log ⁡ p ( x , z ; θ ) \log p(x, z; \theta) logp(x,z;θ) 加权平均,得到 Q ( θ ∣ θ ( t ) ) Q(\theta | \theta^{(t)}) Q(θθ(t))。这是对隐变量的“软归属”的期望,而不是直接假设 z z z 取某个具体值。

  • 关键点是, p ( z ∣ x ; θ ( t ) ) p(z | x; \theta^{(t)}) p(zx;θ(t)) 是一个概率分布,它反映了当前模型参数下对 z z z 的“猜测”。
  • E 步中,我们的目标不是直接更新参数,而是为隐变量建立一种“加权依据”。

直观理解:EM 算法的本质

  1. 隐变量 z z z 是未知的,直接优化对数似然困难。
  2. EM 算法通过迭代的方式解决:
    • E 步:根据当前的参数估计,计算隐变量的后验分布 p ( z ∣ x ; θ ( t ) ) p(z | x; \theta^{(t)}) p(zx;θ(t))
    • M 步:假设 E 步提供的后验分布是正确的,用它加权优化参数。

换句话说,E 步是“填补缺失数据”的过程,用 p ( z ∣ x ; θ ( t ) ) p(z | x; \theta^{(t)}) p(zx;θ(t)) 来近似 z z z 的真实分布,M 步则利用这个近似来更新模型参数。


总结

  • E 步是对隐变量后验分布 p ( z ∣ x ; θ ( t ) ) p(z | x; \theta^{(t)}) p(zx;θ(t)) 的加权期望,反映了“隐变量”的分布信息。
  • 求期望的是完整数据对数似然 log ⁡ p ( x , z ; θ ) \log p(x, z; \theta) logp(x,z;θ),条件是基于隐变量的后验分布。
  • 期望步的结果 Q ( θ ∣ θ ( t ) ) Q(\theta | \theta^{(t)}) Q(θθ(t)) 是一种中间目标函数,用于指导下一步的参数更新。

http://www.kler.cn/a/460337.html

相关文章:

  • 信息学奥赛一本通:1311:【例2.5】求逆序对
  • 【MySQL关于数据库和表结构的增删查改】
  • 生态碳汇涡度相关监测与通量数据分析实践技术应用
  • Python 列表的高级索引技巧
  • DeepSeek-VL2
  • 智慧工地系统:建筑施工智能化管理的全新模式
  • 【Qt】信号和槽机制
  • 【MyBatis-Plus】让 MyBatis 更简单高效
  • 【Kafka 消息队列深度解析与应用】
  • 基于zynq在linux下的HDMI实战
  • labelme2yolov8-seg 草稿()
  • 头歌python:多进程和多线程
  • 年会头投票小游戏
  • 强化学习(1)
  • filament的材质系统
  • io多路复用, select, poll, epoll
  • 计算机因进程结束导致白屏
  • MySQL的多表查询与事务
  • node.js之---EventEmitter 类
  • 数据结构(哈希表)
  • 如何在TikTok上成功推广国际品牌?
  • HTML——20 自定义属性
  • 改进爬山算法之七:动态邻域爬山法(Dynamic Neighborhood Hill Climbing,DNHC)
  • 【项目实战】Apache JMeter HTTP 接口测试
  • CP AUTOSAR标准之FlexRayDriver(AUTOSAR_SWS_FlexRayDriver)(更新中……)
  • ROS2+OpenCV综合应用--9. AprilTag标签码识别