当前位置：首页 > article >正文

论文阅读的附录（八）：Understanding Diffusion Models: A Unified Perspective（五）：逐步加噪评分匹配

article 2025/1/31 4:45:03

Understanding Diffusion Models: A Unified Perspective（五）：逐步加噪评分匹配

文章概括
- - 1. Fisher 散度的定义
  - - 问题
  - 2. 数学技巧：积分分部法（Integration by Parts）
  - - 2.1 回顾积分分部法
    - 2.2 多维积分分部公式
  - 3. 重新表达 Fisher 散度的第二项
  - - 3.1 第二项的原始形式
    - 3.2 替换到 Fisher 散度
    - 3.3 最终可优化的目标
  - 4. 为什么重新表达后可以绕过真实得分函数？
  - 5. 示例：一维高斯分布的评分匹配
  - - 5.1 真实得分函数
    - 5.2 模型得分函数
    - 5.3 Fisher 散度展开
  - 6. 总结

文章概括

引用：

@article{luo2022understanding,
  title={Understanding diffusion models: A unified perspective},
  author={Luo, Calvin},
  journal={arXiv preprint arXiv:2208.11970},
  year={2022}
}

Luo, C., 2022. Understanding diffusion models: A unified perspective. arXiv preprint arXiv:2208.11970.

原文： https://arxiv.org/abs/2208.11970
代码、数据和视频：https://arxiv.org/abs/2208.11970

文章解析原文：
论文笔记（六十三）Understanding Diffusion Models: A Unified Perspective（五）

1. Fisher 散度的定义

Fisher 散度衡量模型得分函数 $s_\theta(x)$ 和真实得分函数 $\nabla \log p(x)$ 的差异：
$D_F(s_\theta, \nabla \log p) = \mathbb{E}_{p(x)} \left[ \| s_\theta(x) - \nabla \log p(x) \|_2^2 \right].$

展开平方项：
$D_F(s_\theta, \nabla \log p) = \mathbb{E}_{p(x)} \left[ \| s_\theta(x) \|_2^2 \right] - 2 \mathbb{E}_{p(x)} \left[ s_\theta(x)^T \nabla \log p(x) \right] + \mathbb{E}_{p(x)} \left[ \| \nabla \log p(x) \|_2^2 \right].$

问题

第三项 $\mathbb{E}_{p(x)} \left[ \| \nabla \log p(x) \|_2^2 \right]$ 与模型 $s_\theta(x)$ 无关，因此可以忽略。
第二项 $\mathbb{E}_{p(x)} \left[ s_\theta(x)^T \nabla \log p(x) \right]$ 涉及真实得分函数 $\nabla \log p(x)$ ，我们无法直接计算。

目标：通过数学技巧，重新表达第二项，从而绕过对 $\nabla \log p(x)$ 的依赖。

2. 数学技巧：积分分部法（Integration by Parts）

2.1 回顾积分分部法

对于任意两个函数 $u (x)$ 和 $v (x)$ ，积分分部公式为：
$\int u(x) \, v'(x) dx = \left[ u(x) v(x) \right] - \int u'(x) v(x) dx.$

我们将其推广到多维情形，涉及梯度和散度（divergence）。

2.2 多维积分分部公式

假设 $u (x)$ 是一个标量函数， $v (x)$ 是一个向量场，则：
$\int u(x) \nabla \cdot v(x) \, dx = \int \nabla u(x) \cdot v(x) \, dx.$

如果 $p (x)$ 是概率密度函数，其积分在边界快速衰减为零，则有：
$\mathbb{E}_{p(x)} \left[ \nabla \cdot v(x) \right] = -\mathbb{E}_{p(x)} \left[ \nabla \log p(x) \cdot v(x) \right].$

3. 重新表达 Fisher 散度的第二项

3.1 第二项的原始形式

目标是重新表达：
$\mathbb{E}_{p(x)} \left[ s_\theta(x)^T \nabla \log p(x) \right].$

利用积分分部公式：
$\mathbb{E}_{p(x)} \left[ s_\theta(x)^T \nabla \log p(x) \right] = -\mathbb{E}_{p(x)} \left[ \nabla \cdot s_\theta(x) \right].$

3.2 替换到 Fisher 散度

将第二项替换后，Fisher 散度变为：
$D_F(s_\theta, \nabla \log p) = \mathbb{E}_{p(x)} \left[ \| s_\theta(x) \|_2^2 \right] + 2 \mathbb{E}_{p(x)} \left[ \nabla \cdot s_\theta(x) \right].$

这是一种可计算的目标函数，因为：

第一个期望项 $\mathbb{E}_{p(x)} \left[ \| s_\theta(x) \|_2^2 \right]$ 只依赖于模型 $s_\theta(x)$ 。
第二个期望项 $\mathbb{E}_{p(x)} \left[ \nabla \cdot s_\theta(x) \right]$ 是散度，模型 $s_\theta(x)$ 的梯度也可计算。