《Posterior Collapse and Latent Variable Non-identifiability》
看起来像一篇很有用的paper,而且还是23年的
没看完 后边看不懂了
Abstract
现有的解释通常将后验崩塌归因于由于变分近似而使用神经网络或优化问题。
而本文认为后验崩塌是潜在变量不可识别性的问题(a problem of latent variable non-identifiability)
本文证明了当且仅当潜在变量再生成模型中是不可识别的,才会导致了后验崩塌。
这一事实意味着后验崩溃不是特定于使用灵活(flexible)分布或近似推理的现象。相反,即使在精确推理的情况下,它也可能出现在经典概率模型中。亏贼//
本文在此理论的基础上,提出了LIDVAE模型。
该模型通过利用双射Brenier映射,并使用输入凸神经网络对它们进行参数化来解决潜在变量不可识别的问题,而无需特殊的变分推理目标或优化技巧
Intro
后验崩塌:潜在变量的后验等于先验
This phenomenon is also known as latent variable collapse, KL vanishing, and over-pruning
潜在变量坍塌,KL消失,过度修剪
后验崩溃使得VAE无法产生有意义的表示,因为它的每个数据点潜在变量都具有完全相同的后验。
先前想法:因为生成部分模型太灵活了/因为使用了变分推断。
因此基于上面的假设,许多策略都侧重于修改变分推断的目标,设计特殊的优化目标,或限制生成模型的能力。
本文证明后验崩溃发生当且仅当潜在变量在生成模型中不可识别时,这意味着似然函数不依赖于潜在变量。文中使用了贝叶斯不可识别的最新理论进行了证明。
后验崩溃和潜在变量不可识别性之间的关系意味着后验崩溃不是特定于使用神经网络或变分推理的现象,还可能出现在经典概率模型中,如高斯混合模型和概率主成分分析(PPCA)。
这种关系还为β-vae等提供了新思路:这些方法启发式地调整嵌入在模型参数优化中的近似推理过程,虽然最初的动机是为了修补变分目标,但这里的结果表明,这些调整是有用的,因为它们有助于避免潜在变量不可识别的参数,从而避免后验崩溃。
于现有的工作相反,本文认为后验崩溃仅仅是一个潜在变量不可识别的问题,而不是优化、变分近似或神经网络本身的问题。
后验坍塌&潜在变量的不可识别性
定义1:后验坍塌
定义2:潜在变量不可识别性
这两个是z定义域任意两个取值
z取任意两个值生成的x的概率是一样的,也就是说无法识别出不同的z了
这个公式也是z不可识别的意思,即x的likelihood不在依赖于z,z就是不可识别的
因此为了加强z的可识别性,需要确保likelihood p(x|z,θ)是一对一的就行。即
模型可识别性&潜在变量可识别性
两者不一样,前者范围更广
潜在变量可识别性要求z在满足特定θ时可识别
模型可识别性要求z和θ都可识别