当前位置：首页 > article >正文

论文笔记：A Simple Framework for Contrastive Learning of Visual Representations

article 2025/2/24 7:32:45

0 简介

论文：A Simple Framework for Contrastive Learning of Visual Representations
代码：https://github.com/google-research/simclr
发表：2020年发表在ICML会议上

1 核心思想

如何构建对比学习的比较对象？本文按如下方式进行构建：

数据增强：输入 $x$ ，增强为 $\tilde{x}_i$ ( $\sim \mathcal{T}$ )和 $\tilde{x}_j$ ( $t^\prime \sim \mathcal{T}$ )，获得两个相关的视角，这两个相关的视角经过代表学习后要相近；
和其他图片增强的视角进行对比： $x$ 的视角和其他图片增强得到的视角距离越远越好。

2 具体算法

在这里插入图片描述

2.1 增强图片的方式

随机裁剪（random cropping）；
随机颜色失真（random color distortions）；
随机高斯模糊（random Gaussian blur）。

实矩形是原始图像，虚线矩形是随机裁剪。通过随机裁剪图像，我们采样对比预测任务，包括全局到局部视图(B→A)或相邻视图(D→C)预测。

2.2 比较学习

$\boldsymbol{h}_{i}=f\left(\tilde{\boldsymbol{x}}_{i}\right)=\operatorname{ResNet}\left(\tilde{\boldsymbol{x}}_{i}\right)$
其中 $\boldsymbol{h}_{i} \in \mathbb{R}^d$ 。
$\boldsymbol{z}_{i}=g\left(\boldsymbol{h}_{i}\right)=W^{(2)} \sigma\left(W^{(1)} \boldsymbol{h}_{i}\right)$
其中 $\sigma$ 就是一个ReLU非线性操作。
正样本组合 $\tilde{x}_i$ 和 $\tilde{x}_j$ 对比Loss：
$\ell_{i, j}=-\log \frac{\exp \left(\operatorname{sim}\left(\boldsymbol{z}_i, \boldsymbol{z}_j\right) / \tau\right)}{\sum_{k=1}^{2 N} \mathbb{1}_{[k \neq i]} \exp \left(\operatorname{sim}\left(\boldsymbol{z}_i, \boldsymbol{z}_k\right) / \tau\right)}$
其中 $\mathbb{1}_{[k \neq i]} \in \{0, 1\}$ ,当 $\neq i$ 等于1， $k == i$ 等于0， $\tau$ 为温度系数。
负样本 $u$ 和 $v$ 对比Loss：
在这里插入图片描述