当前位置：首页 > article >正文

超大规模分类（三）：KNN softmax

article 2025/1/11 16:03:08

传统的分类损失计算输入数据和每个类别中心的距离，来优化模型的训练。KNN softmax通过选择和输入数据最相关的top-K个类别，仅计算输入数据和top-K个类别中心的距离，以减小计算量。

![[Pasted image 20250109103750.png]]

KNN softmax首次诞生于达摩院机器智能技术实验室发表的SIGKDD 2020年《Large-Scale Training System for 100-Million Classification at Alibaba》

简单说下论文作者：

Pan Pan：潘攀，拍立淘创始人，著有《深度学习图像搜索与识别》
Liuyihan Song、Kang Zhao、Yiming Chen、Yingya Zhang均来自拍立淘团队
Yinghui Xu：徐盈辉，徐盈辉-复旦大学人工智能创新与产业(AI³)研究院 (fudan.edu.cn)
Rong Jin：金榕（阿里巴巴原副总裁、达摩副院长）_百度百科 (baidu.com)

问题建模

一个常见的图像分类任务整体流程如下：
![[Pasted image 20250109105251.png]]

输入图像 $x_i$ 送入Convolutional Feature Learning模块，提取图像表征 $f_{x_i}\in \mathbb{R}^{1\times D}$ （其中 $D$ 表示维度），再通过Fully Connected Layer，将图像表征维度 $f_{x_i}$ 映射到类别数 $C$ 上，紧接着通过Softmax Function获取 $[0, 1]$ 的概率值，计算分类损失。

我们来进行公式化定义，

（1）图像表征 $f_{x_i}$ 通过Fully Connected Layer将维度映射到类别数 $C$ ，可以建模成： $f_{x_i}W \in \mathbb{R}^C$ ，其中 $\in \mathbb{R}^{D\times C}$ 。一般情况下，Fully Connected Layer会有偏置 $b$ ，将偏置 $b$ 设置为0。

（2）通过Softmax Function获取 $[0, 1]$ 的概率值，得到 $\frac{f_{x_i}W}{\sum_j{exp(f_{x_i}W_j)}}$ ，其中 $W_j \in \mathbb{R}^{D\times 1}$ ，表示第 $j$ 列数据，也指类别表征。

（3）分类损失的定义为： $\begin{equation}\begin{aligned} L&=-\log\left(\frac{exp(f_{x_i}W_{y_i})}{\sum_j{exp(f_{x_i}W_j)}}\right)\\ &=-\log\left(\frac{exp(\|f_{x_i}\|\cdot \|W_{y_i}\|\cdot cos(\theta_{y_j}))}{\sum_j{exp(\|f_{x_i}\|\cdot\|W_j\|\cdot cos(\theta_{j}))}}\right)\\ \end{aligned} \end{equation}\tag{1}$ ，其中 $y_i$ 指的是输入图像 $x_i$ 对应的类别下标，等式上下成立的原因是向量的内积公式 $\mathbf{a} \cdot \mathbf{b} = \|\mathbf{a}\| \cdot \|\mathbf{b}\| \cdot \cos\theta$ 。

（4）在常规实践中，图像表征 $f_{x_i}$ 和类别表征 $W_j$ 一般都事先归一化好，仅需要考虑两个表征间的余弦距离。同时，需要乘上一个缩放因子，用于控制训练的激进程度，例如
$\begin{equation}\begin{aligned} L&=-\log\left(\frac{exp(\alpha \cdot cos(\theta_{y_j}))}{\sum_j{exp(\alpha \cdot cos(\theta_{j}))}}\right)\\ &=-\log\left(\frac{exp(\alpha \cdot \frac{f_{x_i}}{\|f_{x_i}\|}\cdot \frac{W_{y_i}}{\|W_{y_i}\|})}{\sum_j{exp(\alpha \cdot \frac{f_{x_i}}{\|f_{x_i}\|}\cdot \frac{W_{j}}{\|W_{j}\|}}}\right)\\ &=-\log\left(\frac{exp(\alpha \cdot f_{x_i}^{norm} \cdot W_{_i}^{norm})}{\sum_j{exp(\alpha \cdot f_{x_i}^{norm}\cdot W_{j}^{norm}}}\right)\\ \end{aligned} \end{equation}\tag{2}$
，这个就是CLIP用的损失函数的形式了。

KNN softmax

全连接层的模型并行

如果特征维度是512维，分类1个亿的全连接层参数有 $512\times 100000000=5.12*10^{10}$ 。若参数存储形式为fp32，即1个参数需要4个字节，那么占用的显存为 $\frac{5.12\times 10^{10}*4}{1024\times 1024\times 1024}=191.1GB$ 。

很显然，单块显卡装不下。于是，本文将全连接层参数均分到每一块显卡上。假设我们有256块V100显卡，每块显卡只需要装 $\frac{191.1 GB}{256}=0.74GB$ ，很显然，每块显卡的负担小得多了。

![[Pasted image 20250109210809.png]]
做法如上图所示，包括数据并行和模型并行。

数据并行指的是Convolutional Feature Learning模块参数复制到每块GPU上，只有数据均分成 $N$ 份，送入不同GPU中。
模型并行特指全连接层参数均分成 $N$ 份，存储到不同GPU中。
具体流程如下：
（1）数据均分成 $N$ 份，送到不同GPU中。
（2）每块GPU上，通过Convolutional Feature Learning模块提取图像表征，再执行all-gather操作，将不同GPU的表征汇聚到每一块GPU上。（假设有3块GPU，每块GPU提取了 $\mathbb{R}^{2\times 512}$ 表征，执行all-gather操作后，将3块GPU的表征汇聚起来，分发到所有GPU上，每块GPU提取的表征变为 $\mathbb{R}^{6\times 512}$ ）
（3）第 $i$ 块GPU将图像表征送到第 $i$ 份全连接层参数上
（4）执行分布式softmax计算，以及损失的计算
（5）每块GPU参数反向传播，在反向传播至Convolutional Feature Learning模块前，汇聚梯度，再进一步向前传播。
（6）参数更新时，第 $i$ 份全连接层参数仅通过第 $i$ 块GPU的梯度进行更新；Convolutional Feature Learning模块则通过全GPU的梯度进行更新。

尽管做了全连接层的模型并行，但是全连接层的计算量级实在太大，越80%的训练时间消耗在全连接层的操作上（全连接层前向传播，softmax前向传播，softmax反向传播，全连接层反向传播）

top-K类别选择

在公式（2）中，有 $L=-\log\left(\frac{exp(\alpha \cdot f_{x_i}^{norm} \cdot W_{y_i}^{norm})}{\sum_j{exp(\alpha \cdot f_{x_i}^{norm}\cdot W_{j}^{norm}}}\right)$ ，分类损失需要计算输入表征 $f_{x_i}^{norm}$ 和所有类别表征的余弦距离。由于类别数特别大，计算难度特别高，所以选择从中挑选 $K$ 个类别，进行分母的计算。