当前位置: 首页 > article >正文

【论文笔记】Frequency Domain Model Augmentation for Adversarial Attack

Abstract

对于黑盒攻击,替代模型与受害模型之间的差距通常较大,表现为较弱的攻击性能。基于对抗样本的可迁移性可以通过同时攻击不同模型来提高的观察,提出了利用变换图像模拟不同模型的模型增强方法。
然而,现有的空间域变换并没有转化为显著不同的增广模型。

本问提出一种新颖的频谱模拟攻击,针对正常训练和防御模型,生成更多可转移的对抗样本。具体来说,对输入进行频谱变换,从而在频域进行模型增强(model augmentation)。本文从理论上证明了从频域导出的变换会导致不同的频谱显著图,提出的指标可以反映替代模型的多样性。

1 Introduction

黑盒模型设置下,替代模型与受害者模型之间的差距通常较大,表现为对抗样本的可迁移性较低。虽然同时攻击不同的模型可以提高模型的可迁移性,但是收集大量的不同模型是很困难的,并且从头开始训练一个模型也是非常耗时的。

为了解决这个问题,模型增强(model augmentation)被提出。典型的模型增强方法旨在通过对输入进行保损失变换来模拟不同的模型。然而,现有的所有工作都是在空间域上研究不同模型之间的关系,这可能会忽略它们之间的本质区别。

Nesterov Accelerated Gradient and Scale Invariance for Adversarial Attacks (Jiadong Lin et al., 2020)
保损失变换(Loss-preserving Transformation):给定输入 x x x,其真标签 y t r u e y^{true} ytrue,一个分类器 f ( x ) : x ∈ X → y ∈ Y f(x):x\in\mathcal{X}\rightarrow y\in\mathcal{Y} f(x):xXyY,损失函数为交叉熵损失 J ( x , y ) J(x,y) J(x,y)。如果存在一个输入变换 T ( ⋅ ) \mathcal{T}(\cdot) T()满足对于所有 x x x,都有 J ( T ( x ) , y t r u e ) ≈ J ( x , y t r u e ) J(\mathcal{T}(x),y^{true})\approx J(x,y^{true}) J(T(x),ytrue)J(x,ytrue),那么 T ( ⋅ ) \mathcal{T}(\cdot) T()就是包损失变换。
模型增强(Model Augmentation):给定输入 x x x,其真标签 y t r u e y^{true} ytrue,一个分类器 f ( x ) : x ∈ X → y ∈ Y f(x):x\in\mathcal{X}\rightarrow y\in\mathcal{Y} f(x):xXyY,损失函数为交叉熵损失 J ( x , y ) J(x,y) J(x,y),如果存在一个保损失变换 T ( ⋅ ) \mathcal{T}(\cdot) T(),于是可以从 f f f推导出新的模型: f ′ ( x ) = f ( T ( x ) ) f'(x)=f(\mathcal{T}(x)) f(x)=f(T(x))。定义这样的模型获得方法为模型增强。

为了更好地揭示模型之间的差异,本文从频域的角度引入了频谱显著图(见3.2),因为在该域中图像的表示具有固定的模式,例如图像的低频分量对应于它的轮廓。具体地,频谱显著图被定义为模型损失函数关于输入图像频谱的梯度。 如图1(d~g)所示,不同模型的频谱显著图明显不同,这清楚地揭示了每个模型在相同频率成分上有不同的兴趣。
![[Pasted image 20241130180124.png]]

图1:对正常训练的模型Inc-v3、Inc-v4、Res-152和防御模型IncResv2ens的频谱显著图(所有图像的平均值)进行可视化。(a):变换图像( N = 5 N=5 N=5)在频率域中进行的结果。(b-c):在空间域中进行尺度不变( m 1 = 5 m_1=5 m1=5)和Admix( m 1 = 5 , m 2 = 3 m_1 = 5 , m_2 = 3 m1=5,m2=3)变换的结果. (d-g):原始图像在四种不同模型上的结果。

受此启发,本文考虑调整频谱显著图来模拟更多样的替代模型,从而生成更多可迁移的对抗样本。为此,提出了一种基于离散余弦变换(Discrete cosine transform, DCT)和离散余弦逆变换(Inverse discrete cosine transform, IDCT)技术的频谱变换,以使输入图像多样化。本文从理论上证明了这种频谱变换可以生成不同的频谱显著图,从而模拟不同的替代模型。如图1(a~c)所示,在对不同增强模型的结果进行平均后,只有本文得到的频谱显著图可以覆盖几乎所有其他模型的结果。这表明提出的频谱变换可以有效地缩小替代者模型和受害者模型之间的差距。

3 Methodology

3.1 Preliminaries

f θ : x → y f_\theta:x\rightarrow y fθ:xy表示分类模型, θ , x , y \theta,x,y θ,x,y分别表示模型参数,干净输入图像和真标签。目标是生成对抗性扰动 δ \delta δ

3.2 Spectrum Saliency Map

为了有效地缩小模型之间的差距,揭示它们之间的本质区别是非常重要的。模型增强是最有效的策略之一。
然而,现有工作通常通过在空间域应用损失保持变换来增强替代模型,这可能会忽略模型之间的本质区别,从而降低替代模型的多样性。直观上,由于图像中关键物体的位置是固定的,不同的模型通常关注每个输入图像的相似空间区域。相比之下,不同的模型在进行决策时通常依赖于每个输入图像的不同频率成分。

受此启发,本文转而从频域的角度来探究模型之间的相关性。具体来说,我们采用DCT将输入图像 x x x从空间域变换到频率域。DCT(记为 D ( ⋅ ) \mathcal{D}(\cdot) D())的数学定义在下文中可以简化为:
D ( x ) = A x A T (3) \mathcal{D}(x)=AxA^T\tag{3} D(x)=AxAT(3)
其中 A A A是正交矩阵, A A T = I AA^T=I AAT=I。从形式上看,幅值较高的低频成分往往集中在频谱的左上角,高频成分则位于剩余区域。显然,与空间域中图像的多样化表示相比,频域的模式更加固定。于是本文提出频谱显著图 S ϕ S_\phi Sϕ来挖掘不同模型 f ϕ f_\phi fϕ的敏感点,定义为:
S ϕ = ∂ J ( D I ( D ( x ) ) , y ; ϕ ) ∂ D ( x ) (4) S_\phi=\frac{\partial J(\mathcal{D}_\mathcal{I}(\mathcal{D}(x)),y;\phi)}{\partial \mathcal{D}(x)}\tag{4} Sϕ=D(x)J(DI(D(x)),y;ϕ)(4)
其中 D I \mathcal{D}_\mathcal{I} DI表示IDCT,将输入图像从频域恢复回空间域。DCT和IDCT都是无损变换,即 D I ( D ( x ) ) = A T D ( x ) A = x \mathcal{D}_\mathcal{I}(\mathcal{D}(x))=A^T\mathcal{D}(x)A=x DI(D(x))=ATD(x)A=x

从图1所示的 S ϕ S_\phi Sϕ可视化结果可以看出,感兴趣的频率成分通常因模型而异。因此,频谱显著图可以作为反映特定模型的指标。

3.3 Spectrum Transformation

以上的分析表明,如果能够模拟具有与受害者模型相似的频谱显著图的增强模型,那么替代模型和受害者模型之间的差距可以显著缩小,并且对抗样本可以具有更强的迁移能力。

Lemma 1:假设 B 1 B_1 B1 B 2 B_2 B2 n × n n\times n n×n的矩阵,且 B 1 B_1 B1可逆,则必然存在一个 n × n n\times n n×n的矩阵 C C C,使得 B 1 × C = B 2 B_1\times C=B_2 B1×C=B2

引理1表明,以矩阵变换的形式使得两个矩阵(注意到频谱显著图的本质也是一个矩阵)相等是可能的。然而,在黑盒设置下,被攻击模型的频谱显著图通常是不可用的。此外,替代模型的频谱显著图是高维的,不能保证是可逆的。
为了解决这个问题,本文提出了一种随机谱变换 T ( ⋅ ) \mathcal{T}(\cdot) T(),它将矩阵乘法分解为矩阵加法和Hadamard积,从而得到不同的谱。具体地,结合DCT / IDCT, T ( ⋅ ) \mathcal{T}(\cdot) T()可以表示为:
T ( x ) = D I ( ( D ( x ) + D ( ξ ) ) ⊙ M ) = D I ( D ( x + ξ ) ⊙ M ) (6) \begin{aligned} \mathcal{T}(x)&=\mathcal{D}_\mathcal{I}((\mathcal{D}(x)+\mathcal{D}(\xi))\odot M)\\ &=\mathcal{D}_\mathcal{I}(\mathcal{D}(x+\xi)\odot M) \end{aligned}\tag{6} T(x)=DI((D(x)+D(ξ))M)=DI(D(x+ξ)M)(6)
其中 ⊙ \odot 为Hadamard积, ξ ∼ N ( 0 , σ 2 I ) \xi\sim\mathcal{N}(0,\sigma^2 I) ξN(0,σ2I) M ∼ U ( 1 − ρ , 1 + ρ ) M\sim\mathcal{U}(1-\rho,1+\rho) MU(1ρ,1+ρ)分别从高斯分布和均匀分布中采样。在实际应用中,常见的DCT / IDCT范式,即在应用DCT之前将图像分割成若干个块,并不能很好地提高可迁移性(实验详情见消融研究)。因此,在实验中对整幅图像进行DCT变换

T ( ⋅ ) \mathcal{T}(\cdot) T()能够产生多样化的频谱显著图,可以反应多样化的代理模型,同时减少被攻击模型之间的距离。如图1所示,先前提出的空间域变换(即(b&c))对生成多样化的频谱显著图效果较差,这可能导致较弱的模型增强。相反,通过我们提出的频谱变换,得到的频谱显著图(即(a))可以覆盖几乎所有其他模型的频谱显著图。

3.4 Attack Algorithm

本文提出S2I-FGSM (Spectrum Simulation Iterative Fast Gradient Sign Method),流程见Algorithm 1。
![[Pasted image 20241130234434.png]]

从技术上讲,攻击主要可以分为三个步骤。
首先,在第3~6行中,对输入图像 x t ′ x'_t xt应用我们的频谱变换 T ( ⋅ ) \mathcal{T}(\cdot) T(),使得从替代模型得到的梯度 g i ′ g'_i gi近似等于从一个新模型得到的结果,即模型增强。其次,在第7行中,我们平均 N N N个增广模型的梯度,以获得更稳定的更新方向 g ′ g' g。最后,在第8行中,我们更新迭代 t + 1 t + 1 t+1的对抗样本 x ’ t + 1 x’_{t+1} xt+1。简而言之,上述过程可以用下式概括:
x t + 1 ′ = clip x , ϵ { x t ′ + α ⋅ s i g n ( 1 N ∑ i = 1 N ∇ x t ′ J ( T ( x t ′ ) , y ; ϕ ) ) } (7) x'_{t+1}=\text{clip}_{x,\epsilon}\{x'_t+\alpha\cdot sign(\frac{1}{N}\sum_{i=1}^N\nabla_{x'_t}J(\mathcal{T}(x'_t),y;\phi))\}\tag{7} xt+1=clipx,ϵ{xt+αsign(N1i=1NxtJ(T(xt),y;ϕ))}(7)


http://www.kler.cn/a/421257.html

相关文章:

  • MySQL篇—通过官网下载linux系统下多种安装方式的MySQL社区版软件
  • macOS运行amd64的镜像
  • 使用Python和OpenCV自动检测并去除图像中的字幕
  • 【鸿蒙NEXT】arrayBuffer和base64字符串互相转换
  • 开发一套ERP 数据库规整
  • Docker扩容操作(docker总是空间不足)
  • BioDeepAV:一个多模态基准数据集,包含超过1600个深度伪造视频,用于评估深度伪造检测器在面对未知生成器时的性能。
  • 【ETCD】ETCD用户密码认证
  • HTML5技术贴:现代网页开发的革命
  • 迁移学习!超高创新!GASF-AlexNet-MSA,基于格拉姆角场和AlexNet结合多头注意力机制的故障识别程序
  • 数据结构 - 排序(四):排序算法总结与对比
  • KVCKVO
  • uniapp:封装商品列表为组件并使用
  • 基于Redis海量数据场景分布式ID架构实践
  • 【智慧社区、智慧城市、智慧园区】智慧楼宇系统需求建设方案,智慧楼宇详细设计方案,智慧楼宇系统建设汇报方案(PPT)
  • 位图的学习
  • 遇到问题:hive中的数据库和sparksql 操作的数据库不是同一个。
  • 网络安全课程学习笔记
  • 【Python网络爬虫笔记】8- (BeautifulSoup)抓取电影天堂2024年最新电影,并保存所有电影名称和链接
  • 如何调用百度文心一言API实现智能问答
  • 网络安全维护
  • LuaJava
  • pytorch加载预训练权重失败
  • 【C++笔记】map和set的使用
  • 003-SpringBoot整合Pagehelper
  • 后端-mybatis的一对多