贝叶斯神经网络(Bayesian Neural Network)
最近在研究贝叶斯神经网络,一些概念一直搞不清楚,这里整理一下相关内容,方便以后查阅。
贝叶斯神经网络(Bayesian Neural Network)
- 贝叶斯神经网络(Bayesian Neural Network)
-
- 1. BNN 的核心思想
- 2. BNN 的优化目标
- 3. BNN 的结构与特点
- 4. BNN 的训练过程
- 5. BNN 的优缺点
- 6. 与经典神经网络的对比
- 7. 简单代码示例(PyTorch)
- 总结
- BNN 的目标是计算后验分布
-
- 1. 经典神经网络与最大化似然估计
- 2. 贝叶斯神经网络的目标
- 3. 经典神经网络与贝叶斯神经网络的核心区别
- 4. 为什么不是最大化似然估计或最小化损失函数
- 5. 贝叶斯神经网络的优化目标
- 6. 实际意义:后验分布的好处
- 总结
- Bayes by Backprop
-
- 1. Bayes by Backprop 的目标
- 2. Bayes by Backprop 的实现细节
- 总结
- 经典神经网络优化的例子
-
- 使用均方根误差优化
-
- 代码实现
- 代码解释
- 对比 Bayes by Backprop
- 使用最大化似然估计优化
-
- 代码实现
- 代码解释
- MLE如何在此应用
- 对比 Bayes by Backprop
贝叶斯神经网络(Bayesian Neural Network)
贝叶斯神经网络(Bayesian Neural Network, BNN) 是在经典神经网络中引入贝叶斯概率框架的一种扩展模型。它将网络的权重参数表示为概率分布,而不是确定性的点值,从而可以量化模型和预测结果的不确定性。
1. BNN 的核心思想
在经典神经网络中,权重是固定的点值,通过最小化损失函数(如均方误差、交叉熵)来优化权重参数。而在贝叶斯神经网络中,权重被建模为概率分布,目标是通过数据更新这些分布(即计算后验分布)。
贝叶斯定理:
p ( w ∣ D ) = p ( D ∣ w ) p ( w ) p ( D ) , p(\mathbf{w}|\mathcal{D}) = \frac{p(\mathcal{D}|\mathbf{w}) p(\mathbf{w})}{p(\mathcal{D})}, p(w∣D)=p(D)p(D∣w)p(w),
其中:
- p ( w ∣ D ) p(\mathbf{w}|\mathcal{D}) p(w∣D):后验分布,表示在观察数据后,权重的分布。
- p ( D ∣ w ) p(\mathcal{D}|\mathbf{w}) p(D∣w):似然函数,表示数据在给定权重下的可能性。
- p ( w ) p(\mathbf{w}) p(w):先验分布,表示我们对权重的先验假设(如权重可能是零均值的高斯分布)。
- p ( D ) p(\mathcal{D}) p(D):边际似然,通常通过积分对所有可能的权重求和:
p ( D ) = ∫ p ( D ∣ w ) p ( w ) d w . p(\mathcal{D}) = \int p(\mathcal{D}|\mathbf{w}) p(\mathbf{w}) d\mathbf{w}. p(D)=∫p(D∣w)p(w)dw.
2. BNN 的优化目标
BNN 的目标是计算后验分布 p ( w ∣ D ) p(\mathbf{w}|\mathcal{D}) p(w∣D)。由于边际似然 p ( D ) p(\mathcal{D}) p(D) 的计算通常非常困难(涉及高维积分),我们采用近似方法来推断后验分布,例如:
-
变分推断(Variational Inference)
用一个简单的分布 q ( w ∣ θ ) q(\mathbf{w}|\boldsymbol{\theta}) q(w∣θ) 近似 p ( w ∣ D ) p(\mathbf{w}|\mathcal{D}) p(w∣D),并最小化 KL 散度:
K L ( q ( w ∣ θ ) ∥ p ( w ∣ D ) ) . \mathrm{KL}(q(\mathbf{w}|\boldsymbol{\theta}) \| p(\mathbf{w}|\mathcal{D})). KL(q(w∣θ)∥p(w∣D)). -
蒙特卡罗方法(Monte Carlo Methods)
使用随机采样方法(如 MCMC)直接从后验分布中采样。 -
贝叶斯 by Backprop
通过重参数化技巧,将变分推断和神经网络的反向传播结合。
3. BNN 的结构与特点
BNN 与经典神经网络的主要区别是权重的建模方式
:
- 经典神经网络:权重是固定值(点估计)。
- 贝叶斯神经网络:权重是概率分布,表示为 p ( w ) p(\mathbf{w}) p(w)。
在 BNN 中,推断网络输出时也会引入随机性:
p ( y ∣ x , D ) = ∫ p ( y ∣ x , w ) p ( w ∣ D ) d w . p(\mathbf{y}|\mathbf{x}, \mathcal{D}) = \int p(\mathbf{y}|\mathbf{x}, \mathbf{w}) p(\mathbf{w}|\mathcal{D}) d\mathbf{w}. p(y∣x,D)=∫p(y∣x,w)p(w∣D)dw.
这意味着预测结果(输出 y \mathbf{y} y)不仅依赖于输入 x \mathbf{x} x,还受到权重分布的不确定性影响
。
4. BNN 的训练过程
BNN 的训练过程包括以下步骤:
-
定义先验分布:
对权重 w \mathbf{w} w 定义一个先验分布 p ( w ) p(\mathbf{w}) p(w),例如零均值的高斯分布:
p ( w ) = N ( w ∣ 0 , σ 2 ) . p(\mathbf{w}) = \mathcal{N}(\mathbf{w}|0, \sigma^2). p(w)=N(w∣0,σ2). -
计算似然函数:
定义数据的似然函数 p ( D ∣ w ) p(\mathcal{D}|\mathbf{w}) p(D∣w),例如对分类任务,通常是交叉熵损失对应的概率分布
。 -
近似后验分布:
用 q ( w ∣ θ ) q(\mathbf{w}|\boldsymbol{\theta}) q(w∣θ) 近似 p ( w ∣ D ) p(\mathbf{w}|\mathcal{D}) p(w∣D)。- q ( w ∣ θ ) q(\mathbf{w}|\boldsymbol{\theta}) q(w∣θ) 的参数(如均值 μ \mu μ 和方差 σ \sigma σ)是通过优化得到的。
- 目标是最大化变分下界:
L ( θ ) = E q ( w ∣ θ ) [ log p ( D ∣ w ) ] − K L ( q ( w ∣ θ ) ∥ p ( w ) ) . \mathcal{L}(\boldsymbol{\theta}) = \mathbb{E}_{q(\mathbf{w}|\boldsymbol{\theta})}[\log p(\mathcal{D}|\mathbf{w})] - \mathrm{KL}(q(\mathbf{w}|\boldsymbol{\theta}) \| p(\mathbf{w})). L(θ)=Eq(w∣θ)[logp(D∣w)]−KL(q(w∣θ)∥p(w)).
对最小化变分下界的理解:
第一部分:对数似然的期望 E q ( w ∣ θ ) [ log p ( D ∣ w ) ] \mathbb{E}_{q(\mathbf{w}|\boldsymbol{\theta})}[\log p(\mathcal{D}|\mathbf{w})] Eq(w∣θ)[logp(D∣w)]
- 作用:评估近似分布 q ( w ∣ θ ) q(\mathbf{w}|\boldsymbol{\theta}) q(w∣θ) 在训练数据 D \mathcal{D} D 上的拟合能力。
- 解释:从分布 q ( w ∣ θ ) q(\mathbf{w}|\boldsymbol{\theta}) q(w∣θ) 中采样权重 w \mathbf{w} w,然后计算其对应的对数似然 log p ( D ∣ w ) \log p(\mathcal{D}|\mathbf{w}) logp(D∣