【论文笔记】Frequency Domain Model Augmentation for Adversarial Attack
Abstract
对于黑盒攻击,替代模型与受害模型之间的差距通常较大,表现为较弱的攻击性能。基于对抗样本的可迁移性可以通过同时攻击不同模型来提高的观察,提出了利用变换图像模拟不同模型的模型增强方法。
然而,现有的空间域变换并没有转化为显著不同的增广模型。
本问提出一种新颖的频谱模拟攻击,针对正常训练和防御模型,生成更多可转移的对抗样本。具体来说,对输入进行频谱变换,从而在频域进行模型增强(model augmentation)。本文从理论上证明了从频域导出的变换会导致不同的频谱显著图,提出的指标可以反映替代模型的多样性。
1 Introduction
黑盒模型设置下,替代模型与受害者模型之间的差距通常较大,表现为对抗样本的可迁移性较低。虽然同时攻击不同的模型可以提高模型的可迁移性,但是收集大量的不同模型是很困难的,并且从头开始训练一个模型也是非常耗时的。
为了解决这个问题,模型增强(model augmentation)被提出。典型的模型增强方法旨在通过对输入进行保损失变换来模拟不同的模型。然而,现有的所有工作都是在空间域上研究不同模型之间的关系,这可能会忽略它们之间的本质区别。
Nesterov Accelerated Gradient and Scale Invariance for Adversarial Attacks (Jiadong Lin et al., 2020)
保损失变换(Loss-preserving Transformation):给定输入 x x x,其真标签 y t r u e y^{true} ytrue,一个分类器 f ( x ) : x ∈ X → y ∈ Y f(x):x\in\mathcal{X}\rightarrow y\in\mathcal{Y} f(x):x∈X→y∈Y,损失函数为交叉熵损失 J ( x , y ) J(x,y) J(x,y)。如果存在一个输入变换 T ( ⋅ ) \mathcal{T}(\cdot) T(⋅)满足对于所有 x x x,都有 J ( T ( x ) , y t r u e ) ≈ J ( x , y t r u e ) J(\mathcal{T}(x),y^{true})\approx J(x,y^{true}) J(T(x),ytrue)≈J(x,ytrue),那么 T ( ⋅ ) \mathcal{T}(\cdot) T(⋅)就是包损失变换。
模型增强(Model Augmentation):给定输入 x x x,其真标签 y t r u e y^{true} ytrue,一个分类器 f ( x ) : x ∈ X → y ∈ Y f(x):x\in\mathcal{X}\rightarrow y\in\mathcal{Y} f(x):x∈X→y∈Y,损失函数为交叉熵损失 J ( x , y ) J(x,y) J(x,y),如果存在一个保损失变换 T ( ⋅ ) \mathcal{T}(\cdot) T(⋅),于是可以从 f f f推导出新的模型: f ′ ( x ) = f ( T ( x ) ) f'(x)=f(\mathcal{T}(x)) f′(x)=f(T(x))。定义这样的模型获得方法为模型增强。
为了更好地揭示模型之间的差异,本文从频域的角度引入了频谱显著图(见3.2),因为在该域中图像的表示具有固定的模式,例如图像的低频分量对应于它的轮廓。具体地,频谱显著图被定义为模型损失函数关于输入图像频谱的梯度。 如图1(d~g)所示,不同模型的频谱显著图明显不同,这清楚地揭示了每个模型在相同频率成分上有不同的兴趣。
图1:对正常训练的模型Inc-v3、Inc-v4、Res-152和防御模型IncResv2ens的频谱显著图(所有图像的平均值)进行可视化。(a):变换图像( N = 5 N=5 N=5)在频率域中进行的结果。(b-c):在空间域中进行尺度不变( m 1 = 5 m_1=5 m1=5)和Admix( m 1 = 5 , m 2 = 3 m_1 = 5 , m_2 = 3 m1=5,m2=3)变换的结果. (d-g):原始图像在四种不同模型上的结果。
受此启发,本文考虑调整频谱显著图来模拟更多样的替代模型,从而生成更多可迁移的对抗样本。为此,提出了一种基于离散余弦变换(Discrete cosine transform, DCT)和离散余弦逆变换(Inverse discrete cosine transform, IDCT)技术的频谱变换,以使输入图像多样化。本文从理论上证明了这种频谱变换可以生成不同的频谱显著图,从而模拟不同的替代模型。如图1(a~c)所示,在对不同增强模型的结果进行平均后,只有本文得到的频谱显著图可以覆盖几乎所有其他模型的结果。这表明提出的频谱变换可以有效地缩小替代者模型和受害者模型之间的差距。
3 Methodology
3.1 Preliminaries
令 f θ : x → y f_\theta:x\rightarrow y fθ:x→y表示分类模型, θ , x , y \theta,x,y θ,x,y分别表示模型参数,干净输入图像和真标签。目标是生成对抗性扰动 δ \delta δ。
3.2 Spectrum Saliency Map
为了有效地缩小模型之间的差距,揭示它们之间的本质区别是非常重要的。模型增强是最有效的策略之一。
然而,现有工作通常通过在空间域应用损失保持变换来增强替代模型,这可能会忽略模型之间的本质区别,从而降低替代模型的多样性。直观上,由于图像中关键物体的位置是固定的,不同的模型通常关注每个输入图像的相似空间区域。相比之下,不同的模型在进行决策时通常依赖于每个输入图像的不同频率成分。
受此启发,本文转而从频域的角度来探究模型之间的相关性。具体来说,我们采用DCT将输入图像
x
x
x从空间域变换到频率域。DCT(记为
D
(
⋅
)
\mathcal{D}(\cdot)
D(⋅))的数学定义在下文中可以简化为:
D
(
x
)
=
A
x
A
T
(3)
\mathcal{D}(x)=AxA^T\tag{3}
D(x)=AxAT(3)
其中
A
A
A是正交矩阵,
A
A
T
=
I
AA^T=I
AAT=I。从形式上看,幅值较高的低频成分往往集中在频谱的左上角,高频成分则位于剩余区域。显然,与空间域中图像的多样化表示相比,频域的模式更加固定。于是本文提出频谱显著图
S
ϕ
S_\phi
Sϕ来挖掘不同模型
f
ϕ
f_\phi
fϕ的敏感点,定义为:
S
ϕ
=
∂
J
(
D
I
(
D
(
x
)
)
,
y
;
ϕ
)
∂
D
(
x
)
(4)
S_\phi=\frac{\partial J(\mathcal{D}_\mathcal{I}(\mathcal{D}(x)),y;\phi)}{\partial \mathcal{D}(x)}\tag{4}
Sϕ=∂D(x)∂J(DI(D(x)),y;ϕ)(4)
其中
D
I
\mathcal{D}_\mathcal{I}
DI表示IDCT,将输入图像从频域恢复回空间域。DCT和IDCT都是无损变换,即
D
I
(
D
(
x
)
)
=
A
T
D
(
x
)
A
=
x
\mathcal{D}_\mathcal{I}(\mathcal{D}(x))=A^T\mathcal{D}(x)A=x
DI(D(x))=ATD(x)A=x。
从图1所示的 S ϕ S_\phi Sϕ可视化结果可以看出,感兴趣的频率成分通常因模型而异。因此,频谱显著图可以作为反映特定模型的指标。
3.3 Spectrum Transformation
以上的分析表明,如果能够模拟具有与受害者模型相似的频谱显著图的增强模型,那么替代模型和受害者模型之间的差距可以显著缩小,并且对抗样本可以具有更强的迁移能力。
Lemma 1:假设 B 1 B_1 B1和 B 2 B_2 B2是 n × n n\times n n×n的矩阵,且 B 1 B_1 B1可逆,则必然存在一个 n × n n\times n n×n的矩阵 C C C,使得 B 1 × C = B 2 B_1\times C=B_2 B1×C=B2。
引理1表明,以矩阵变换的形式使得两个矩阵(注意到频谱显著图的本质也是一个矩阵)相等是可能的。然而,在黑盒设置下,被攻击模型的频谱显著图通常是不可用的。此外,替代模型的频谱显著图是高维的,不能保证是可逆的。
为了解决这个问题,本文提出了一种随机谱变换
T
(
⋅
)
\mathcal{T}(\cdot)
T(⋅),它将矩阵乘法分解为矩阵加法和Hadamard积,从而得到不同的谱。具体地,结合DCT / IDCT,
T
(
⋅
)
\mathcal{T}(\cdot)
T(⋅)可以表示为:
T
(
x
)
=
D
I
(
(
D
(
x
)
+
D
(
ξ
)
)
⊙
M
)
=
D
I
(
D
(
x
+
ξ
)
⊙
M
)
(6)
\begin{aligned} \mathcal{T}(x)&=\mathcal{D}_\mathcal{I}((\mathcal{D}(x)+\mathcal{D}(\xi))\odot M)\\ &=\mathcal{D}_\mathcal{I}(\mathcal{D}(x+\xi)\odot M) \end{aligned}\tag{6}
T(x)=DI((D(x)+D(ξ))⊙M)=DI(D(x+ξ)⊙M)(6)
其中
⊙
\odot
⊙为Hadamard积,
ξ
∼
N
(
0
,
σ
2
I
)
\xi\sim\mathcal{N}(0,\sigma^2 I)
ξ∼N(0,σ2I)和
M
∼
U
(
1
−
ρ
,
1
+
ρ
)
M\sim\mathcal{U}(1-\rho,1+\rho)
M∼U(1−ρ,1+ρ)分别从高斯分布和均匀分布中采样。在实际应用中,常见的DCT / IDCT范式,即在应用DCT之前将图像分割成若干个块,并不能很好地提高可迁移性(实验详情见消融研究)。因此,在实验中对整幅图像进行DCT变换。
T ( ⋅ ) \mathcal{T}(\cdot) T(⋅)能够产生多样化的频谱显著图,可以反应多样化的代理模型,同时减少被攻击模型之间的距离。如图1所示,先前提出的空间域变换(即(b&c))对生成多样化的频谱显著图效果较差,这可能导致较弱的模型增强。相反,通过我们提出的频谱变换,得到的频谱显著图(即(a))可以覆盖几乎所有其他模型的频谱显著图。
3.4 Attack Algorithm
本文提出S2I-FGSM (Spectrum Simulation Iterative Fast Gradient Sign Method),流程见Algorithm 1。
从技术上讲,攻击主要可以分为三个步骤。
首先,在第3~6行中,对输入图像
x
t
′
x'_t
xt′应用我们的频谱变换
T
(
⋅
)
\mathcal{T}(\cdot)
T(⋅),使得从替代模型得到的梯度
g
i
′
g'_i
gi′近似等于从一个新模型得到的结果,即模型增强。其次,在第7行中,我们平均
N
N
N个增广模型的梯度,以获得更稳定的更新方向
g
′
g'
g′。最后,在第8行中,我们更新迭代
t
+
1
t + 1
t+1的对抗样本
x
’
t
+
1
x’_{t+1}
x’t+1。简而言之,上述过程可以用下式概括:
x
t
+
1
′
=
clip
x
,
ϵ
{
x
t
′
+
α
⋅
s
i
g
n
(
1
N
∑
i
=
1
N
∇
x
t
′
J
(
T
(
x
t
′
)
,
y
;
ϕ
)
)
}
(7)
x'_{t+1}=\text{clip}_{x,\epsilon}\{x'_t+\alpha\cdot sign(\frac{1}{N}\sum_{i=1}^N\nabla_{x'_t}J(\mathcal{T}(x'_t),y;\phi))\}\tag{7}
xt+1′=clipx,ϵ{xt′+α⋅sign(N1i=1∑N∇xt′J(T(xt′),y;ϕ))}(7)