当前位置：首页 > article >正文

2024-12-29-sklearn学习（25）无监督学习-神经网络模型（无监督）烟笼寒水月笼沙，夜泊秦淮近酒家。

article 2025/1/3 0:28:50

文章目录

sklearn学习(25) 无监督学习-神经网络模型（无监督）
- 25.1 限制波尔兹曼机
- - 25.1.1 图形模型和参数化
  - 25.1.2 伯努利限制玻尔兹曼机
  - 25.1.3 随机最大似然学习

sklearn学习(25) 无监督学习-神经网络模型（无监督）

文章参考网站：
https://sklearn.apachecn.org/
和
https://scikit-learn.org/stable/

25.1 限制波尔兹曼机

限制玻尔兹曼机（Restricted Boltzmann machines，简称 RBM）是基于概率模型的无监督非线性特征学习器。当用 RBM 或多层次结构的RBMs 提取的特征在馈入线性分类器（如线性支持向量机或感知机）时通常会获得良好的结果。

该模型对输入的分布作出假设。目前，scikit-learn 只提供了 BernoulliRBM，它假定输入是二值（binary values）的，或者是 0 到 1 之间的值，每个值都编码特定特征被激活的概率。

RBM 尝试使用特定图形模型最大化数据的似然。它所使用的参数学习算法（随机最大似然）可以防止特征表示偏离输入数据。这使得它能捕获到有趣的特征，但使得该模型对于小数据集和密度估计不太有效。

该方法在初始化具有独立 RBM 权值的深度神经网络时得到了广泛的应用。这种方法是无监督的预训练。

示例：

Restricted Boltzmann Machine features for digit classification

25.1.1 图形模型和参数化

RBM 的图形模型是一个全连接的二分图。

节点是随机变量，其状态取决于它连接到的其他节点的状态。这个模型可通过连接的权重、以及每个可见或隐藏单元的偏置项进行参数化，为了简单起见，我们省略了上图中的偏置项。

用能量函数衡量联合概率分布的质量：
$E(\mathbf{v}, \mathbf{h}) = -\sum_i \sum_j w_{ij}v_ih_j - \sum_i b_iv_i - \sum_j c_jh_j$

在上面的公式中， $\mathbf{b}$ 和 $\mathbf{c}$ 分别是可见层和隐藏层的偏置向量。模型的联合概率是根据能量来定义的：
$P(\mathbf{v}, \mathbf{h}) = \frac{e^{-E(\mathbf{v}, \mathbf{h})}}{Z}$
“限制”是指模型的二分图结构，它禁止隐藏单元之间或可见单元之间的直接交互。这代表以下条件独立性成立：
$h_i \bot h_j | \mathbf{v} \\ v_i \bot v_j | \mathbf{h}$
二分图结构允许使用高效的块吉比斯采样（block Gibbs sampling）进行推断。

25.1.2 伯努利限制玻尔兹曼机

在 BernoulliRBM 中，所有单位都是二进制随机单元。这意味着输入数据应该是二值，或者是在 0 和 1 之间的实数值，其表示可见单元活跃或不活跃的概率。这是一个很好的字符识别模型，其中的关注点是哪些像素是活跃的，哪些不是。对于自然场景的图像，它因为背景、深度和相邻像素趋势取相同的值而不再适合。

每个单位的条件概率分布由其接收的输入的 logistic sigmoid函数给出：
$P(v_i=1|\mathbf{h}) = \sigma(\sum_j w_{ij}h_j + b_i) \\P(h_i=1|\mathbf{v}) = \sigma(\sum_i w_{ij}v_i + c_j)$
其中 $\sigma$ 是 logistic sigmoid函数：
$\sigma(x) = \frac{1}{1 + e^{-x}}$

25.1.3 随机最大似然学习

在 BernoulliRBM 函数中实现的训练算法被称为随机最大似然（SML）或持续对比发散（PCD）。由于数据的似然函数的形式，直接优化最大似然是不可行的：
$\log P(v) = \log \sum_h e^{-E(v, h)} - \log \sum_{x, y} e^{-E(x, y)}$
为了简单起见，上面的等式是针对单个训练样本所写的。相对于权重的梯度由对应于上述的两个项构成。根据它们的符号，它们通常被称为正梯度和负梯度。这种实现按照小批量样本对梯度进行计算。

在最大化对数似然度（maximizing the log-likelihood）的情况下，正梯度使模型更倾向于与观察到的训练数据兼容的隐藏状态。RBM 的二分体结构使他可以被高效地计算。然而，负梯度是棘手的。其目标是降低模型偏好的联合状态的能量，从而使数据保持真实。它可以使用块吉比斯采样通过马尔可夫链蒙特卡罗来粗略估计，它通过迭代地对每个 $v$ 和 $h$ 进行交互采样，直到链混合。以这种方式产生的样本有时被称为幻想粒子。这是低效的，并且我们很难确定马可夫链是否混合。

对比发散方法建议在经过少量迭代后停止链，迭代数 $k$ 通常为 1。该方法快速且方差小，但样本远离模型分布。

持续对比发散解决了这个问题。在 PCD 中，我们保留了多个链（幻想粒子）来在每个权重更新之后更新 $k$ 个吉比斯采样步骤，而不是每次需要梯度时都启动一个新的链，并且只执行一个吉比斯采样步骤。这使得粒子能更彻底地探索空间。

参考资料：

“A fast learning algorithm for deep belief nets” G. Hinton, S. Osindero, Y.-W. Teh, 2006

“Training Restricted Boltzmann Machines using Approximations to the Likelihood Gradient” T. Tieleman, 2008

查看全文

http://www.kler.cn/a/458677.html