当前位置: 首页 > article >正文

《Posterior Collapse and Latent Variable Non-identifiability》

看起来像一篇很有用的paper,而且还是23年的
没看完 后边看不懂了

Abstract

现有的解释通常将后验崩塌归因于由于变分近似而使用神经网络优化问题
而本文认为后验崩塌是潜在变量不可识别性的问题(a problem of latent variable non-identifiability)
本文证明了当且仅当潜在变量再生成模型中是不可识别的,才会导致了后验崩塌。
这一事实意味着后验崩溃不是特定于使用灵活(flexible)分布或近似推理的现象。相反,即使在精确推理的情况下,它也可能出现在经典概率模型中。亏贼//
本文在此理论的基础上,提出了LIDVAE模型。
该模型通过利用双射Brenier映射,并使用输入凸神经网络对它们进行参数化来解决潜在变量不可识别的问题,而无需特殊的变分推理目标或优化技巧

Intro

后验崩塌:潜在变量的后验等于先验

This phenomenon is also known as latent variable collapse, KL vanishing, and over-pruning
潜在变量坍塌,KL消失,过度修剪

后验崩溃使得VAE无法产生有意义的表示,因为它的每个数据点潜在变量都具有完全相同的后验。

先前想法:因为生成部分模型太灵活了/因为使用了变分推断。
因此基于上面的假设,许多策略都侧重于修改变分推断的目标,设计特殊的优化目标,或限制生成模型的能力。

本文证明后验崩溃发生当且仅当潜在变量在生成模型中不可识别时,这意味着似然函数不依赖于潜在变量。文中使用了贝叶斯不可识别的最新理论进行了证明。

后验崩溃和潜在变量不可识别性之间的关系意味着后验崩溃不是特定于使用神经网络或变分推理的现象,还可能出现在经典概率模型中,如高斯混合模型和概率主成分分析(PPCA)。
这种关系还为β-vae等提供了新思路:这些方法启发式地调整嵌入在模型参数优化中的近似推理过程,虽然最初的动机是为了修补变分目标,但这里的结果表明,这些调整是有用的,因为它们有助于避免潜在变量不可识别的参数,从而避免后验崩溃。
于现有的工作相反,本文认为后验崩溃仅仅是一个潜在变量不可识别的问题,而不是优化、变分近似或神经网络本身的问题。

后验坍塌&潜在变量的不可识别性

定义1:后验坍塌

在这里插入图片描述

定义2:潜在变量不可识别性

在这里插入图片描述
这两个是z定义域任意两个取值
在这里插入图片描述
z取任意两个值生成的x的概率是一样的,也就是说无法识别出不同的z了
在这里插入图片描述
这个公式也是z不可识别的意思,即x的likelihood不在依赖于z,z就是不可识别的
因此为了加强z的可识别性,需要确保likelihood p(x|z,θ)是一对一的就行。即
在这里插入图片描述

模型可识别性&潜在变量可识别性

两者不一样,前者范围更广
潜在变量可识别性要求z在满足特定θ时可识别
模型可识别性要求z和θ都可识别

隐变量不可识别性⇔后验坍塌

证明 不可识别导致后验坍塌

在这里插入图片描述


http://www.kler.cn/a/444042.html

相关文章:

  • c++--------c++概念
  • LabVIEW电机控制中的主动消抖
  • 摩尔信使MThings的逻辑控制功能范例
  • 禅说:zookeeper与聚落。
  • SpringBoot+Vue3实现阿里云视频点播 实现教育网站 在上面上传对应的视频,用户开会员以后才能查看视频
  • APM32F411使用IIS外设驱动es8388实现自录自播
  • 【数据结构】平衡二叉树
  • 【Canvas与仪表盘】铝圈蓝底汽车速度仪表盘(可用键盘按键调节速度值)
  • 初学stm32 --- 外部中断
  • C语言与C++与Python与Java的差别
  • TCA9555芯片手册解读(6)
  • 2024年12月陪玩系统-仿东郊到家约玩系统是一种新兴的线上预约线下社交、陪伴系统分享-优雅草央千澈-附带搭建教程
  • upload-labs(1-19关)通关攻略
  • Vue零基础教程|从前端框架到GIS开发系列课程(六)组合式API
  • string
  • 【Web前端】Web API:构建Web应用核心
  • 6UCPCI板卡设计方案:8-基于双TMS320C6678 + XC7K420T的6U CPCI Express高速数据处理平台
  • docker拉取rabbitmq镜像安装延迟队列插件
  • 初学stm32 --- 系统时钟配置
  • 从零搭建CBAM、SENet、STN、transformer、mobile_vit、simple_vit、vit模型(Pytorch代码示例)
  • 多种机器学习模型预测房价
  • 力扣--LCR 129.字母迷宫
  • Go怎么做性能优化工具篇之pprof
  • C# 文件系统I/O操作--File类与FileInfo类
  • 【Tomcat】第三站:注解
  • 两款轻量级数据库SQLite 和 TinyDB,简单!实用!