【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 4:MHE表示能力
目录
- 1 MHE的表示能力
- 2 基于Frobenius-范数的低秩逼近
- 3 基于CE的低秩近似
论文:Multi-Head Encoding for Extreme Label Classification
作者:Daojun Liang, Haixia Zhang, Dongfeng Yuan and Minggao Zhang
单位:山东大学
代码:https://github.com/Anoise/MHE
论文地址:Online,ArXiv,GItHub
背景动机参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 1
基础知识参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 2
算法实现参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 3
表示能力参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 4
实验结果参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 5
无需预处理见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 6
请各位同学给我点赞,激励我创作更好、更多、更优质的内容!^_^
关注微信公众号,获取更多资讯
1 MHE的表示能力
正如推论1所证明的那样,MHE的本质是一种通过多个一阶头的乘积逼近高阶极值标签的低秩逼近方法。
因此:MHE在分类问题中是否保证足够健壮的性能?
为了回答上述问题,我们将MHE推广到更一般的低秩近似问题,从Frobenius-norm度量扩展到交叉熵。如图4-a所示,如果有
G
G
G组具有MHE的多头,每组多头形成一个
H
H
H阶张量。然后,将所有这些张量相加,得到最终的输出
I
Y
i
≈
σ
(
O
~
)
=
σ
(
∑
g
G
O
g
1
⊗
O
g
2
⊗
⋯
⊗
O
g
H
)
(
16
a
)
=
σ
(
∑
g
G
(
W
g
1
F
)
⊗
(
W
g
2
F
)
⊗
⋯
⊗
(
W
g
G
F
)
)
,
(
16
b
)
\mathbb{I}_{Y_i} \approx \sigma(\tilde{\bm O}) = \sigma(\sum_g^G \bm{O}_g^1 \otimes \bm{O}_g^2 \otimes \cdots \otimes \bm{O}_g^H) \qquad (16a) \\ = \sigma(\sum_g^G (\mathcal{W}_g^1F) \otimes (\mathcal{W}_g^2F) \otimes \cdots \otimes (\mathcal{W}_g^GF)), \qquad (16b)
IYi≈σ(O~)=σ(g∑GOg1⊗Og2⊗⋯⊗OgH)(16a)=σ(g∑G(Wg1F)⊗(Wg2F)⊗⋯⊗(WgGF)),(16b)其中
g
g
g为组的索引。实际上,等式\ref{eq9_}是张量的CP分解,
G
G
G是张量的秩。这将张量分解成一个分量秩一张量的和。从理论上讲,其他张量分解方法也可以用来近似
O
\bm O
O,当它被视为一个矢量化的高阶张量。
分类器的低秩逼近能力。(a)使用MHE的 G G G组多头分类器(G-MHE)。(b)在原点分类器上增加瓶颈层,实现 W \mathcal{W} W的低秩特性。
2 基于Frobenius-范数的低秩逼近
等式16说明了输出
O
~
\tilde{\bm O}
O~的低秩近似本质上是为了限制其权重的秩。因此,我们研究低秩权重对分类器性能的影响。为了约束
W
\mathcal{W}
W的rank,在特征层
F
\bm F
F和输出层
O
\bm O
O之间增加一个线性瓶颈层
O
b
\bm{O}_b
Ob,如图4-b所示。设
F
\bm F
F和
O
b
\bm {O}_b
Ob之间的权值为
W
1
\mathcal{W}_1
W1,
O
b
\bm{O}_b
Ob和
O
\bm O
O之间的权值为
W
2
\mathcal{W}_2
W2,有
O
=
W
2
W
1
F
+
B
=
W
~
F
+
B
,
(
17
)
s
.
t
.
R
(
W
~
)
=
r
≤
m
i
n
(
∣
F
∣
,
∣
O
b
∣
)
,
\bm {O} = \mathcal{W}_2\mathcal{W}_1 \bm{F} + \bm{B} = \tilde{\mathcal{W}} \bm{F} + \bm{B}, \qquad (17)\\ s.t. \ R(\tilde{\mathcal{W}}) = r \le min(|\bm{F}|,|\bm{O}_b|), \qquad \quad \ \ \ \ \ \ \
O=W2W1F+B=W~F+B,(17)s.t. R(W~)=r≤min(∣F∣,∣Ob∣), 其中
W
~
=
W
2
W
1
\tilde{\mathcal{W}} = \mathcal{W}_2\mathcal{W}_1
W~=W2W1,
R
(
⋅
)
R(\cdot)
R(⋅)是矩阵的秩。如果
W
~
\tilde{\mathcal{W}}
W~被frobenius范数损失优化,有
m
i
n
L
=
1
2
∣
∣
I
Y
i
−
O
∣
∣
F
2
=
∣
∣
I
Y
i
−
W
~
F
∣
∣
F
2
.
(
18
)
min \ L = \frac{1}{2} ||\mathbb{I}_{Y_i}-\bm{O}||_F^2 = ||\mathbb{I}_{Y_i}-\tilde{\mathcal{W}} \bm{F}||_F^2. \qquad (18)
min L=21∣∣IYi−O∣∣F2=∣∣IYi−W~F∣∣F2.(18)等式18是一个低秩近似问题,它使
I
Y
i
\mathbb{I}_{Y_i}
IYi和
O
\bm O
O的所有元素尽可能接近。它产生了一个低秩近似
A
r
g
m
i
n
R
(
W
~
)
≤
r
∣
∣
W
−
W
~
∣
∣
F
2
\mathop{Argmin}\limits_{R(\tilde{\mathcal{W}}) \le r} ||\mathcal{W}-\tilde{\mathcal{W}}||_F^2
R(W~)≤rArgmin∣∣W−W~∣∣F2。更进一步,我们有了下面的定理。
Theorem 2: 假设 F \mathcal F F为满行秩,用frobenius范数作为损失函数对式17中的线性神经网络进行训练,不会产生虚假的局部极小值,并且每个退化的鞍点 W \mathcal{W} W要么是全局极小值,要么是二阶鞍点。
定理2的证明在附录B中给出。该定理说明方程17的任何局部最优解 W ~ ∗ \tilde{\mathcal{W}}^* W~∗都是全局最优解,即通过任意 W ~ ∗ \tilde{\mathcal{W}}^* W~∗都可以得到 I Y i \mathbb{I}_{Y_i} IYi的最优逼近。值得注意的是,定理2中指定的完整行秩条件在XLC任务中很容易得到满足。这是因为特征的长度比类别的数量要小得多,例如 ∣ F F T ∣ = ∣ F ∣ , s . t . ∣ F ∣ ≪ C |\mathcal{F}\mathcal{F}^T| = |\mathcal{F}|, s.t. |F| \ll C ∣FFT∣=∣F∣,s.t.∣F∣≪C。
3 基于CE的低秩近似
更进一步,如果用softmax将等式17中低秩近似的损失从Frobenius-范数推广到交叉熵(CE),我们将得到一个更好的 I Y i \mathbb{I}_{Y_i} IYi近似。这是因为方程\ref{eq10_}中的frobenius -范数度量对于分类问题过于严格,即Frobenius -范数损失倾向于近似所有元素,而CE损失倾向于选择最大的元素。因此,需要将等式17中的低秩近似推广到CE损失,CE损失是分类问题中常用但研究较少的方法。
与等式17中使用的Frobenius -范数不同,对输出的非线性操作会影响其表示能力。这是因为Softmax(训练)和不可微Argmax(测试)可以近似为
Λ
(
O
i
)
=
l
i
m
ϵ
→
0
Λ
(
σ
ϵ
(
O
i
)
)
=
l
i
m
ϵ
→
0
Λ
(
e
O
i
ϵ
∑
j
e
O
i
ϵ
)
,
(
19
)
\varLambda(\bm{O}_i) = \mathop{lim}\limits_{\epsilon \rightarrow 0} \varLambda (\sigma_{\epsilon}(\bm{O}_i)) = \mathop{lim}\limits_{\epsilon \rightarrow 0} \varLambda \left(\frac{e^{\frac{\bm{O}_i}{\epsilon}}}{\sum_j{e^{\frac{\bm{O}_i}{\epsilon}}}}\right), \qquad (19)
Λ(Oi)=ϵ→0limΛ(σϵ(Oi))=ϵ→0limΛ(∑jeϵOieϵOi),(19)其中
ϵ
\epsilon
ϵ为Softmax的温度。由公式19可知,测试中使用的Argmax操作实际上与训练中使用的Softmax和CE操作是一致的。即Eq. 19相当于CE和Softmax, Softmax使元素之间的间隙变大,CE选择最大的元素。因此,我们将低秩近似问题从Frobenius -范数损失推广到CE损失。
Theorem 3: 当 F \mathcal F F可分离时,使用CE以softmax作为损失函数训练方程17中的两层线性网络,只要满足 R ( [ W ~ B ] ) > 1 R([{\tilde{\mathcal{W}} \atop \bm{B}}]) > 1 R([BW~])>1,就可以恢复与vanilla分类器 O = W F \mathcal{O} = \mathcal{W} \mathcal{F} O=WF相同的精度。
定理3的证明在附录C中给出。定理\ref{th3}表明,当偏差 B \bm B B存在时, R ( W ~ ) R(\tilde{\mathcal{W}}) R(W~)的最小值可以等于 1 1 1,这意味着OHE和MHE之间的性能差距相当小。同时,定理3也说明了当深度神经网络对数据进行过拟合时,其泛化与标签的语义信息无关。这意味着标签预处理技术,如HLT和标签聚类,是不必要的,因为低秩近似仍然独立于标签定位。
为了验证这个定理,我们生成 N × N N\times N N×N高斯随机样本,其中 N = 100 N=100 N=100和 ∣ O b ∣ = 1 |\bm{O}_b|=1 ∣Ob∣=1。如图5-a所示,训练精度和 R ( σ ( O ) ) R(\sigma(\bm{O})) R(σ(O))不随时代的增加而增加。然而,在图5-b中, R ( σ ( O ) ) R(\sigma(\bm{O})) R(σ(O))与训练精度呈正相关,并且随着epoch的增加接近 100 % 100\% 100%。然后,为了验证Softmax对CE的选择性,我们使用ResNet-18 在CIFAR-100 上进行了实验,并将 ∣ O b ∣ |\bm{O}_b| ∣Ob∣设置为不同的长度。结果如图5-c所示。我们发现,当 ∣ O b ∣ |\bm{O}_b| ∣Ob∣设置适当时,可以很好地保证模型的测试精度。实验部分进一步证实了这一说法。
图5:不同损失函数和 R ( W ~ ) R(\tilde{W}) R(W~)的实验。(a, b)两层线性网络在高斯分布随机样本上的性能。 (c ) ResNet-18在CIFAR-100数据集上的性能。
此外,当使用CE和Softmax对方程17中的模型进行训练时,低秩矩阵 W ~ \tilde{\mathcal{W}} W~的逼近误差可以通过以下定理进行分析。
Theorem 4: 设
W
∗
\mathcal{W}^*
W∗为方程17中模型的局部最小值,和
Δ
=
W
~
−
W
∗
\Delta = \tilde{\mathcal{W}}-\mathcal{W}^*
Δ=W~−W∗,使用CE和softmax作为损失函数训练方程17中的双层线性网络,有
E
≤
∑
j
C
∣
e
Δ
j
−
1
∣
,
(
20
)
E \le \sum_j^{C} |e^{\Delta_j}-1|, \qquad (20)
E≤j∑C∣eΔj−1∣,(20)其中
E
E
E是
σ
(
O
)
\sigma(\mathcal{O})
σ(O)到
σ
(
O
∗
)
\sigma(\mathcal{O}^*)
σ(O∗)的近似误差。
定理4的证明在附录D中给出。定理4表明,近似误差 E E E与类数 C C C和 W ~ \tilde{\mathcal{W}} W~的秩有关。它说明了一个重要的结论:当 Δ j > 0 \Delta_j > 0 Δj>0, E E E呈指数下降时,当 Δ j → 0 \Delta_j \rightarrow 0 Δj→0, E E E呈线性下降时。这与深度学习方法一致,在训练开始时损失急剧下降。
背景动机参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 1
基础知识参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 2
算法实现参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 3
表示能力参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 4
实验结果参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 5
无需预处理见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 6