【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 1:背景动机
目录
- 1 简单概括
- 2 几个重要发现
- 3 主要贡献
- 4 背景知识
- 5 方法简介
论文:Multi-Head Encoding for Extreme Label Classification
作者:Daojun Liang, Haixia Zhang, Dongfeng Yuan and Minggao Zhang
单位:山东大学
代码:https://github.com/Anoise/MHE
论文地址:Online,ArXiv,GItHub
背景动机参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 1
基础知识参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 2
算法实现参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 3
表示能力参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 4
实验结果参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 5
无需预处理见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 6
1 简单概括
在现实世界中物体的类别数量,包括大预言模型的Token数量,通常是巨大的,每个实例可能包含多个标签。为了利用机器学习来区分这些大量的标签,极限标签分类(XLC)任务应运而生。然而,随着类别数量的增加,分类器中参数和非线性操作的数量也会增加。这就导致了分类器计算过载问题(CCOP)。为了解决这个问题,本文提出了一个多头编码(MHE)机制,它用多头分类器取代了传统的分类器。在训练过程中,MHE将极端标签分解成多个短局部标签的乘积,每个头部都在这些局部标签上进行训练。在测试过程中,可以直接从每个头部的局部预测中计算出预测标签。这在几何上减少了计算负荷。然后,根据不同XLC任务的特点,如单标签、多标签和模型预训练任务,提出了3种基于mhe的实现方法,即多头产品、多头级联和多头采样,以更有效地应对CCOP。此外,本文从理论上证明了MHE可以通过将低秩近似问题从Frobenius-norm推广到交叉熵来实现与香草分类器近似等效的性能。实验结果表明,该方法在显著简化XLC任务的训练和推理过程的同时,达到了最先进的性能。
ChatGPT-4O的Token数量是惊人的,Token数量的增多,是为了提升输出结果向人类知识对齐;
2 几个重要发现
- 在单标签分类中,多头编码(MHE)等同于独热编码(OHE)。
- 使用交叉熵(Cross-Entropy)训练低秩网络,以softmax作为损失函数,可以恢复与普通分类器相同的准确率,只要权重为秩 R ( [ W , B ] ) > 1 R([W,B])>1 R([W,B])>1即可。也就是,只要存在偏置的情况下,多头编码可完美回复分类精度。
- 当标签与数据过拟合时,模型泛化与标签的语义无关。
- 对于极限分类问题,标签预处理技术,如标签层级树(HLT)和标签聚类(LC),是不必要的,因为低秩近似仍然独立于标签定位。这不仅可以显著提高训练推理速度,而且可以实现多gpu并行加速。
3 主要贡献
- 针对极限标签分类(XLC)任务中参数过重的问题,提出了一种MHE机制,并对其参数进行几何缩减,同时从理论上分析了其表示能力。
- 将低秩逼近问题从Frobenius -范数度量推广到交叉熵(CE)度量,发现非线性运算可以大大降低分类器对其权重秩的依赖。
- 设计了三种基于mhe的方法,从统一的角度应用不同的极限标签分类(XLC)任务,实验结果表明,这三种方法都达到了SOTA性能,并提供了强有力的基准。
- MHE可以任意划分标签空间,使其灵活适用于任何XLC任务,包括图像分类、人脸识别、多标签极限分类和神经机器翻译(NMT)等。
- MHC对标签空间没有限制,放弃了标签层级树(HLT)和标签聚类(LC)等技术,从而大大简化了模型在XMC任务上的训练和推理过程。
请各位同学给我点赞,激励我创作更好、更多、更优质的内容!^_^
关注微信公众号,获取更多资讯
4 背景知识
在现实世界中,存在着数以百万计的生物物种、无数的非生命物体和巨大的自然语言词汇。为了区分这些海量实例的类别,需要使用极限标签分类(XLC) [ 1,2 ] ,导致分类器中参数数量和非线性操作的急剧增加。这种现象被称为分类器计算过载问题(CCOP),由于棘手的计算和存储需求,使得使用单热编码(OHE)或多标签学习算法的现有机器学习方法变得难以实用。
目前,XLC 的主要任务包括极限单标签分类(XSLC)、极限多标签分类(XMLC)和模型预训练。对于XSLC,采用基于采样的[ 1,3,4 ]和基于softmax的[ 2,5,6 ]方法来训练神经语言模型,降低了计算输出的复杂度。对于XMLC,例如多标签文本分类,许多研究人员利用一对多[ 7,8,9,10 ] ,层次标签树(HLT ) [ 11,12,13,14,15 ] ,标签聚类( LC) [ 16 , 17 , 18 , 19 ]等,标签预处理技术分解极端将标签放入小且易于处理的标签空间中。对于模型预训练任务,例如人脸识别,预训练模型必须在包含数百万张人脸的数据集上进行训练。因此, [ 20 ]和[ 21 ]中的作者采用哈希森林或随机采样方法来近似原始 OHE。
5 方法简介
图 1 :深度神经网络由三部分组成:输入、主干和分类器。在多头编码中,在训练期间将标签分解到多头分类器的输出上,并在测试中组合输出以获得预测标签。
与上述方法不同的是,如图1所示,本文将原始分类器分解为多个头,并将极端标签概念化为高维空间中的点。在训练过程中,极端标签的坐标分量对应于每个头的局部标签。这个过程涉及将极端标签分解为多个局部标签的乘积,从而几何地减少极端标签的编码长度。测试时,每个头贡献一个坐标分量,形成高维空间中的一个点,可以将其投影到整数轴上以获得极值标签。由于极端标签可以根据局部标签的编码信息计算出来,因此本文将这种机制称为多头编码(MHE)。
基于它们的推理方法和应用场景,MHE可以应用于各种XLC任务,例如XSLC、XMLC和模型预训练。本文提出了 MHE 的三种算法实现,如图2所示。首先,为XSLC设计了多头积(MHP)算法。该算法直接采用乘积运算来组合分类头,计算速度快,性能值得称赞。其次,为XMLC设计了多头级联(MHC)算法。 MHC也采用乘积运算,但在头之间构建顺序级联以消除多标签表示中的歧义。最后,设计了多头采样(MHS)算法用于模型预训练。 MHS 不结合多头。相反,每次只训练与真实标签相对应的本地头。这三种算法在各种 XLC 任务中都取得了相当大的性能和速度优势。
三个基于mhe的XLC任务培训和测试流程。红色虚线框表示的部分是为了 方便理解,在实践中不需要。
背景动机参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 1
基础知识参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 2
算法实现参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 3
表示能力参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 4
实验结果参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 5
无需预处理见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 6