当前位置: 首页 > article >正文

变分边界详解

起因

当时看VAE论文时有这么一段,但是看完直接一头雾水,这都那跟哪,第一个公式咋做的变换就变出那么一堆。网上搜了很多博客都语焉不详,只好自己来写一篇,希望能解答后来人的疑惑。
在这里插入图片描述

公式1

参考文章:证据下界(ELBO)、EM算法、变分推断、变分自编码器(VAE)和混合高斯模型(GMM)
在这里插入图片描述
解释一下,我们之前都是用MLE计算损失, l o g p ( x ∣ θ ) logp(x|\theta) logp(xθ) l o g p θ ( x ) logp_{\theta}(x) logpθ(x)是一样的,数分和统计学写法习惯不同。第一种理解同上,可以结合VAE模型理解他的解释,这个解释比较抽象。
第二种理解是以信息论的角度,信息熵= E [ − l o g p θ ( x ) ] E[-logp_{\theta}(x)] E[logpθ(x)]。信息熵越小,说明系统越稳定,不确定程度越低。
L [ θ ] = a r g m i n θ E [ − l o g p θ ( x ) ] = a r g m a x θ E [ l o g p θ ( x ) ] L[\theta]=argmin_\theta E[-logp_{\theta}(x)]=argmax_\theta E[logp_{\theta}(x)] L[θ]=argminθE[logpθ(x)]=argmaxθE[logpθ(x)]
推导公式1:(引入一个隐变量z,z可以想象成VAE编码器计算出来的均值和方差的随机变量,对应分布q(z))
l o g p θ ( x ) = l o g p θ ( x , z ) − l o g p θ ( z ∣ x ) = l o g p θ ( x , z ) q ( z ) − l o g p θ ( z ∣ x ) q ( z ) logp_\theta(x) = logp_\theta(x,z) - logp_\theta(z|x)= log\frac{p_\theta(x,z)}{q(z)} - log\frac{p_\theta(z|x)}{q(z)} logpθ(x)=logpθ(x,z)logpθ(zx)=logq(z)pθ(x,z)logq(z)pθ(zx)
方程两边同时求期望:
具体推到过程看大佬的,白板机器学习
在这里插入图片描述

公式2

证明如下:
DK >= 0,所以可证公式2。
DK >= 0证明结果如下,写的不清楚请参考其他博客,证明很多,实在懒得敲了见谅。
在这里插入图片描述

公式3

计算结果如下,写的不清楚请参考其他博客,证明很多,实在懒得敲了见谅。
在这里插入图片描述


http://www.kler.cn/a/549160.html

相关文章:

  • Windows Defender Control--禁用Windows安全中心
  • 【PyTorch】torch.optim介绍
  • 撕碎QT面具(1):Tab Widget转到某个Tab页
  • vscode/cursor+godot C#中使用socketIO
  • CentOS搭建PPPOE服务器
  • JUC并发-4.wait和notify以及Atomic原理
  • 4.完成html文件读取|获取title|获取content|构建url|调试(C++)
  • DeepSeek 助力 Vue 开发:打造丝滑的瀑布流布局(Masonry Layout)
  • JAVA EE初阶 - 预备知识(一)
  • 计算机视觉:卷积神经网络(CNN)基本概念(二)
  • 全方位养生指南:打造健康生活蓝图
  • 【论文笔记】On Generative Agents in Recommendation
  • Docker 数据卷的使用与数据持久化(二)
  • 数位dp入门详解
  • GDB QUICK REFERENCE (GDB 快速参考手册)
  • Vue2 中使用 UniApp 时,生命周期钩子函数总结
  • 案例-04.部门管理-删除
  • 负载测试工具有哪些?
  • unity学习44:学习Animator 的一个动作捕捉网站,实测好用
  • 蓝桥杯篇---IAP15F2K61S2串口