当前位置：首页 > article >正文

【顶刊TPAMI 2025】多头编码（MHE）之极限分类 Part 1：背景动机

article 2025/3/6 21:16:45

背景动机参见【顶刊TPAMI 2025】多头编码（MHE）之极限分类 Part 1
基础知识参见【顶刊TPAMI 2025】多头编码（MHE）之极限分类 Part 2
算法实现参见【顶刊TPAMI 2025】多头编码（MHE）之极限分类 Part 3
表示能力参见【顶刊TPAMI 2025】多头编码（MHE）之极限分类 Part 4
实验结果参见【顶刊TPAMI 2025】多头编码（MHE）之极限分类 Part 5
无需预处理见【顶刊TPAMI 2025】多头编码（MHE）之极限分类 Part 6

1 简单概括

在现实世界中物体的类别数量，包括大预言模型的Token数量，通常是巨大的，每个实例可能包含多个标签。为了利用机器学习来区分这些大量的标签，极限标签分类（XLC）任务应运而生。然而，随着类别数量的增加，分类器中参数和非线性操作的数量也会增加。这就导致了分类器计算过载问题（CCOP）。为了解决这个问题，本文提出了一个多头编码（MHE）机制，它用多头分类器取代了传统的分类器。在训练过程中，MHE将极端标签分解成多个短局部标签的乘积，每个头部都在这些局部标签上进行训练。在测试过程中，可以直接从每个头部的局部预测中计算出预测标签。这在几何上减少了计算负荷。然后，根据不同XLC任务的特点，如单标签、多标签和模型预训练任务，提出了3种基于mhe的实现方法，即多头产品、多头级联和多头采样，以更有效地应对CCOP。此外，本文从理论上证明了MHE可以通过将低秩近似问题从Frobenius-norm推广到交叉熵来实现与香草分类器近似等效的性能。实验结果表明，该方法在显著简化XLC任务的训练和推理过程的同时，达到了最先进的性能。
在这里插入图片描述

ChatGPT-4O的Token数量是惊人的，Token数量的增多，是为了提升输出结果向人类知识对齐；

2 几个重要发现

在单标签分类中，多头编码（MHE）等同于独热编码（OHE）。
使用交叉熵（Cross-Entropy）训练低秩网络，以softmax作为损失函数，可以恢复与普通分类器相同的准确率，只要权重为秩 $R ([W, B]) > 1$ 即可。也就是，只要存在偏置的情况下，多头编码可完美回复分类精度。
当标签与数据过拟合时，模型泛化与标签的语义无关。
对于极限分类问题，标签预处理技术，如标签层级树（HLT）和标签聚类（LC），是不必要的，因为低秩近似仍然独立于标签定位。这不仅可以显著提高训练推理速度，而且可以实现多gpu并行加速。

3 主要贡献

针对极限标签分类（XLC）任务中参数过重的问题，提出了一种MHE机制，并对其参数进行几何缩减，同时从理论上分析了其表示能力。
将低秩逼近问题从Frobenius -范数度量推广到交叉熵（CE）度量，发现非线性运算可以大大降低分类器对其权重秩的依赖。
设计了三种基于mhe的方法，从统一的角度应用不同的极限标签分类（XLC）任务，实验结果表明，这三种方法都达到了SOTA性能，并提供了强有力的基准。
MHE可以任意划分标签空间，使其灵活适用于任何XLC任务，包括图像分类、人脸识别、多标签极限分类和神经机器翻译（NMT）等。
MHC对标签空间没有限制，放弃了标签层级树（HLT）和标签聚类（LC）等技术，从而大大简化了模型在XMC任务上的训练和推理过程。

请各位同学给我点赞，激励我创作更好、更多、更优质的内容！^_^

关注微信公众号，获取更多资讯
在这里插入图片描述

4 背景知识

在现实世界中，存在着数以百万计的生物物种、无数的非生命物体和巨大的自然语言词汇。为了区分这些海量实例的类别，需要使用极限标签分类（XLC） [ 1,2 ] ，导致分类器中参数数量和非线性操作的急剧增加。这种现象被称为分类器计算过载问题（CCOP），由于棘手的计算和存储需求，使得使用单热编码（OHE）或多标签学习算法的现有机器学习方法变得难以实用。

目前，XLC 的主要任务包括极限单标签分类（XSLC）、极限多标签分类（XMLC）和模型预训练。对于XSLC，采用基于采样的[ 1,3,4 ]和基于softmax的[ 2,5,6 ]方法来训练神经语言模型，降低了计算输出的复杂度。对于XMLC，例如多标签文本分类，许多研究人员利用一对多[ 7,8,9,10 ] ，层次标签树（HLT ） [ 11,12,13,14,15 ] ，标签聚类（ LC) [ 16 , 17 , 18 , 19 ]等，标签预处理技术分解极端将标签放入小且易于处理的标签空间中。对于模型预训练任务，例如人脸识别，预训练模型必须在包含数百万张人脸的数据集上进行训练。因此， [ 20 ]和[ 21 ]中的作者采用哈希森林或随机采样方法来近似原始 OHE。

5 方法简介

在这里插入图片描述

图 1 ：深度神经网络由三部分组成：输入、主干和分类器。在多头编码中，在训练期间将标签分解到多头分类器的输出上，并在测试中组合输出以获得预测标签。

与上述方法不同的是，如图1所示，本文将原始分类器分解为多个头，并将极端标签概念化为高维空间中的点。在训练过程中，极端标签的坐标分量对应于每个头的局部标签。这个过程涉及将极端标签分解为多个局部标签的乘积，从而几何地减少极端标签的编码长度。测试时，每个头贡献一个坐标分量，形成高维空间中的一个点，可以将其投影到整数轴上以获得极值标签。由于极端标签可以根据局部标签的编码信息计算出来，因此本文将这种机制称为多头编码（MHE）。

基于它们的推理方法和应用场景，MHE可以应用于各种XLC任务，例如XSLC、XMLC和模型预训练。本文提出了 MHE 的三种算法实现，如图2所示。首先，为XSLC设计了多头积（MHP）算法。该算法直接采用乘积运算来组合分类头，计算速度快，性能值得称赞。其次，为XMLC设计了多头级联(MHC)算法。 MHC也采用乘积运算，但在头之间构建顺序级联以消除多标签表示中的歧义。最后，设计了多头采样（MHS）算法用于模型预训练。 MHS 不结合多头。相反，每次只训练与真实标签相对应的本地头。这三种算法在各种 XLC 任务中都取得了相当大的性能和速度优势。
在这里插入图片描述