当前位置: 首页 > article >正文

ICLR2022 | IAA | 从数据分布的角度重新思考对抗转移性

Rethinking Adversarial Transferability From A Data Distribution Perspective

  • 摘要-Abstract
  • 引言-Introduction
  • 相关工作-Related Work
  • 方法-Methods
  • 实验-Experiments
  • 结论-Conclusion


论文链接

本文 “Rethinking Adversarial Transferability From A Data Distribution Perspective” 从数据分布角度重新思考对抗样本可迁移性,提出内在对抗攻击(IAA)方法,通过优化提高攻击成功率,实验结果表明 IAA 优于现有方法。


摘要-Abstract

Adversarial transferability enables attackers to generate adversarial examples from the source model to attack the target model, which has raised security concerns about the deployment of DNNs in practice. In this paper, we rethink adversarial transferability from a data distribution perspective and further enhance transferability by score matching based optimization. We identify that some samples with injecting small Gaussian noise can fool different target models, and their adversarial examples under different source models have much stronger transferability. We hypothesize that these samples are in the low-density region of the ground truth distribution where models are not well trained. To improve the attack success rate of adversarial examples, we match the adversarial attacks with the directions which effectively decrease the ground truth density. We propose Intrinsic Adversarial Attack (IAA), which smooths the activation function and decreases the impact of the later layers of a given normal model, to increase the alignment of adversarial attack and the gradient of joint data distribution. We conduct comprehensive transferable attacks against multiple DNNs and show that our IAA can boost the transferability of the crafted attacks in all cases and go beyond state-of-the-art methods.

对抗样本的可迁移性使得攻击者能够从源模型生成对抗样本,进而攻击目标模型,这引发了人们对深度神经网络(DNN)在实际部署中的安全担忧。在本文中,我们从数据分布的角度重新审视对抗样本的可迁移性,并通过基于分数匹配的优化方法进一步增强其可迁移性。我们发现,向一些样本中注入小的高斯噪声就可以欺骗不同的目标模型,并且这些样本在不同源模型下生成的对抗样本具有更强的可迁移性。我们假设这些样本处于真实分布的低密度区域,在该区域模型训练效果不佳。为了提高对抗样本的攻击成功率,我们将对抗攻击与能有效降低真实分布密度的方向进行匹配。我们提出了内在对抗攻击(IAA)方法,该方法通过平滑激活函数并降低给定正常模型中后层的影响,来增强对抗攻击与联合数据分布梯度的对齐性。 我们对多个深度神经网络进行了全面的可迁移攻击实验,结果表明,我们的IAA方法在所有情况下都能提高所生成攻击的可迁移性,超越了当前最先进的方法。


引言-Introduction

这部分内容指出深度神经网络(DNNs)在安全关键领域应用广泛,但易受对抗样本攻击,其对抗迁移性引发对DNNs实际部署安全性的担忧。具体内容如下:

  1. 研究背景与问题:DNNs在诸多安全关键领域被广泛应用,然而却易受到对抗样本的攻击。这些对抗样本对人类来说难以察觉,但却能对DNNs造成灾难性影响,并且可以在不同模型之间转移,这种对抗迁移性使得攻击者能从源模型生成对抗样本攻击未知目标模型 ,所以理解对抗迁移性的本质成为深度学习中的一个基本问题。
  2. 已有研究分析:部分研究表明,源模型的特征如模型架构、模型容量和测试准确率等会影响对抗样本的迁移性;也有研究认为数据相关信息可能是对抗迁移性的关键因素,但难以具体定义非鲁棒特征。
  3. 本文研究发现:发现一些样本对高斯噪声敏感,注入小高斯噪声就能愚弄不同模型,且其由不同源模型生成的对抗样本对不同目标模型的迁移性更强。假设这些样本处于源模型和目标模型训练数据的低概率区域,模型在这些区域训练效果不佳,将这类数据记为低密度数据(LDD),其他为高密度数据(HDD)。
    在这里插入图片描述
    图1:(左图)向低密度数据(LDD)和高密度数据(HDD)注入高斯噪声时的攻击成功率。更多损坏实验见附录L。(右图)使用投影梯度下降法(PGD, ℓ ∞ \ell_{\infty} 范数, ϵ = 16 / 255 \epsilon = 16/255 ϵ=16/255 )针对不同目标模型(VGG19、ResNet-152、DenseNet-201、SE154),由低密度数据和高密度数据生成的对抗样本的攻击成功率。源模型为ResNet-50。
  4. 研究方法与创新点:提出将对抗攻击与向低概率区域的内在攻击相匹配,以生成强迁移性的对抗样本。通过修改预训练网络的结构超参数,使对抗攻击方向与内在攻击方向对齐(AAI),并提出内在对抗攻击(IAA)方法。该方法通过平滑激活函数(用Softplus替换ReLU)和降低模型后期层的影响,优化结构超参数以最大化AAI,进而提高对抗迁移性。
  5. 实验验证与贡献:实验发现源模型的测试准确率可能并不重要,IAA既能降低目标模型的Top-1准确率,也能降低Top-5准确率,且在不同强度的单步攻击中表现优异。主要贡献包括提出AAI评估对抗攻击与内在攻击的对齐性,并证明其对对抗迁移性的有效性;提出IAA方法生成更具迁移性的对抗样本;通过综合实验表明IAA能显著提升对抗样本的迁移性。

相关工作-Related Work

该部分主要回顾了对抗攻击领域的相关研究,涵盖攻击类型、影响对抗迁移性的因素以及基于生成模型的对抗攻击与防御等方面,为后续研究提供了背景和参考。

  1. 对抗攻击类型:对抗攻击主要分为白盒攻击和黑盒攻击。白盒攻击假设攻击者可完全访问目标模型的结构和参数,典型方法有FGSM、PGD和CW。黑盒攻击假设攻击者仅知道目标模型的输出,大致分为通过查询目标模型估计梯度和攻击替代模型两类,后者因效率高、风险低而受关注。
  2. 影响对抗迁移性的因素研究:许多研究探索了影响对抗迁移性的因素。Su等发现模型架构对迁移性的影响大于模型容量;Dong等提出利用梯度动量可提升对抗迁移性;Xie等表明增加输入数据的多样性能增强迁移性;Huang等通过在预指定层增加扰动微调对抗样本;Wang等提出减少攻击时扰动单元间的相互作用;Wu等认为减少残差模块的梯度对提高迁移性有效;Guo等去除后期层的ReLU激活以实现线性反向传播,减少中间层影响;Zhang等推测平滑反向传播可能足以提高迁移性。
  3. 基于生成模型的对抗攻击与防御:部分研究利用生成模型进行对抗攻击和防御。Naseer等和Yang等通过条件生成攻击模型学习对抗扰动;Samangouei等和Song等使用GANs或自回归模型检测和净化对抗样本;Du等、Hill等、Srinivasan等和Yoon等利用EBM或基于分数的生成模型净化对抗样本;JEM提出将分类器与EBM结合可获得一定的鲁棒性。但基于生成模型的对抗攻击或净化计算成本较高。本文旨在以较低计算成本修改普通分类器,通过最大化AAI指标增强其对抗迁移性。

方法-Methods

该部分主要介绍了从数据分布角度增强对抗样本迁移性的方法,包括对抗攻击与内在攻击的对齐度量、基于Softplus的模型平滑、利用早期层信息以及完整的IAA算法。

  1. 对抗攻击与内在攻击的对齐(AAI, Alignment Between The Adversarial Attack And Intrinsic Attack):为提升对抗迁移性,需使模型对抗攻击方向与指向数据低密度区域的内在攻击方向匹配。通过定义AAI度量两者匹配程度,公式为 A A I ≜ E p D ( x , y ) [ ∇ x l o g   p θ , Λ ( y ∣ x ) ∥ ∇ x l o g   p θ , Λ ( y ∣ x ) ∥ 2 ⋅ ∇ x l o g p D ( x , y ) ] AAI \triangleq \mathbb{E}_{p_{D}(x, y)}\left[\frac{\nabla_{x} log \ p_{\theta, \Lambda}(y | x)}{\left\| \nabla_{x} log \ p_{\theta, \Lambda}(y | x)\right\| _{2}} \cdot \nabla_{x} log p_{D}(x, y)\right] AAIEpD(x,y)[xlog pθ,Λ(yx)2xlog pθ,Λ(yx)xlogpD(x,y)] ,该定义等价于修改后的分数匹配目标。在模型平滑时,借助积分变换可计算AAI。但ReLU网络二阶导数不明确,需对模型进行平滑处理。
  2. 正常模型的内在对抗攻击(IAA)
    • 利用Softplus平滑分类器:用 S o f t p l u s β Softplus_{\beta} Softplusβ替换ReLU,能减少梯度噪声,使梯度更好地匹配真实数据分布梯度。实验表明,随着 β \beta β 减小,AAI先增后减,在 β = 15 \beta = 15 β=15 时达到最大,此时对抗样本迁移性显著提升。
      在这里插入图片描述
      图2:(左图)在ImageNet数据集上,用不同的 S o f t p l u s β Softplus_{\beta} Softplusβ替换ReLU后,正常ResNet-50模型的AAI(对抗攻击与内在攻击的对齐度)和准确率。(右图)用不同 S o f t p l u s β Softplus_{\beta} Softplusβ修改预训练的ResNet-50模型后,生成的对抗样本的攻击成功率。每个目标模型的基线与 β = 45 \beta = 45 β=45 时的成功率相似。有关DenseNet-121的说明,请参见附录G。
    • 利用早期层的分布相关信息:早期层能更好捕捉输入的局部统计信息。在ResNet中,通过调整残差模块权重 λ i \lambda_{i} λi ,降低后期层影响,可提高AAI和对抗迁移性。实验发现,对预训练ResNet - 50调整 λ 1 : 4 \lambda_{1:4} λ1:4 ,在 λ 1 : 4 = 0.6 \lambda_{1:4}=0.6 λ1:4=0.6 时AAI最大,攻击成功率也最高,且减小 λ 4 \lambda_{4} λ4 对提升迁移性效果显著。可使用贝叶斯优化搜索最佳 λ 1 : 4 \lambda_{1:4} λ1:4
      在这里插入图片描述
      图3:(左图)我们展示了对正常的在ImageNet数据集上训练的ResNet-50的所有残差模块应用相同的 λ λ λ 的影响。当 λ 1 : 4 = 0.6 \lambda_{1:4}=0.6 λ1:4=0.6 时,对抗攻击与内在攻击的对齐性(AAI)达到最大值,而修改后模型的准确率仅约为60%。(中图)我们展示了对正常ResNet-50的所有残差模块应用相同的 λ λ λ 时的攻击成功率。 λ 1 : 4 = 0.6 \lambda_{1:4}=0.6 λ1:4=0.6时的成功率最高,此时AAI也达到最大值。(右图)展示了对每个模块应用不同的 λ i \lambda_{i} λi 的影响。源模型是ResNet-50,目标模型是VGG19。水平线表示结合每个模块的最佳 λ i \lambda_{i} λi 时的攻击成功率。
    • IAA算法:综合上述因素,AAI是衡量迁移性的有效指标,模型平滑度和各层数据分布信息对最大化AAI很重要。使用贝叶斯优化搜索最佳的 β \beta β λ i \lambda_{i} λi ,以构建IAA算法。该算法用 S o f t p l u s β Softplus_{\beta} Softplusβ 替换ReLU,并将搜索得到的 λ i \lambda_{i} λi 应用于不同残差模块。
      在这里插入图片描述
      在这里插入图片描述
      图4:对预训练的ResNet-50使用贝叶斯优化求解公式(9)时的训练损失。搜索结果为 β = 20 \beta = 20 β=20 λ 1 = 0.98 \lambda_{1} = 0.98 λ1=0.98 λ 2 = 0.87 \lambda_{2} = 0.87 λ2=0.87 λ 3 = 0.73 \lambda_{3} = 0.73 λ3=0.73 λ 4 = 0.19 \lambda_{4} = 0.19 λ4=0.19

实验-Experiments

该部分通过一系列实验,对提出的IAA方法进行了全面评估,验证了其在不同攻击场景下对不同目标模型的有效性和优越性。具体内容如下:

  1. 实验设置

    • 攻击设置:采用黑盒威胁模型,在 ℓ ∞ \ell_{\infty} 范数约束下,将对抗扰动限制在半径为 ϵ = 16 / 255 \epsilon = 16/255 ϵ=16/255 的球内,步长 α \alpha α 设为 2 / 255 2/255 2/255 ,迭代步数为10,在Tesla V100上进行实验,且重复5次取不同随机种子。
    • 目标模型和源模型:实验涵盖正常目标模型(如VGG19、ResNet系列等9种)和稳健目标模型(如IncV3ens3等3种采用集成对抗训练的模型)。源模型选择了ResNet - 50、ResNet - 152、DenseNet - 121、DenseNet - 201等,还在附录J中使用了VGG16、VGG19。
  2. 对正常模型的迁移性实验

    • 无目标攻击:对比不同攻击方法,IAA在所有转移场景下,对不同目标模型的攻击成功率均大幅超越现有方法。如从ResNet - 50到VGG19的转移攻击中,IAA成功率达96.40% ,远高于PGD的53.00%和SGM的82.72% 。
      表1:针对正常模型的迁移性:基于ResNet-50、ResNet-152、DenseNet-121和DenseNet-201生成的(无目标的)黑盒攻击成功率。
      在这里插入图片描述
      表2:对基于ResNet-50、ResNet-152、DenseNet-121和DenseNet-201生成的(无目标的)黑盒对抗样本进行预测时,不同目标模型的Top-5准确率。最佳结果以粗体显示。
      在这里插入图片描述

    • 有目标攻击:生成可转移的有目标对抗样本难度较大,但IAA能将对抗图像沿目标类的高密度区域方向移动,提升有目标攻击的迁移性。在从ResNet - 50到VGG19的有目标攻击中,IAA成功率为33.68% ,比PGD和SGM分别高出33.28%和29.20% 。
      表3:针对正常模型的迁移性:基于ResNet-50、ResNet-152、DenseNet-121和DenseNet-201生成的(有目标的)黑盒攻击成功率(%)。最佳结果以粗体显示。结果是在8个不同目标类别上的平均值。
      在这里插入图片描述

    • 单步攻击评估:IAA能显著提升单步攻击的对抗迁移性,优于SGM和DI。因为IAA生成的扰动与内在攻击方向一致,可使样本进入低密度区域,让目标模型难以准确预测。
      在这里插入图片描述
      图 5:不同方法对不同目标模型的攻击成功率(单步攻击)。源模型为 ResNet-50。横轴表示不同的攻击强度。(左图)目标模型是 DenseNet-121。(中图)目标模型是 SE154。(右图)目标模型是 Inception V3。

  3. 对稳健训练模型的迁移性实验:IAA对采用集成对抗训练的稳健目标模型的攻击成功率,相比现有方法有显著提升。如从ResNet - 50到IncV3ens3的攻击中,IAA成功率为38.72% ,比PGD高31.2% ,比SGM高5.91% 。附录N还表明IAA能有效突破多种其他防御方法。
    表4:针对稳健训练模型的迁移性:基于源模型(ResNet-50、ResNet-152、DenseNet121和DenseNet201)生成的黑盒攻击的成功率。
    在这里插入图片描述

  4. 基于集成的攻击实验:IAA结合集成策略生成的对抗扰动迁移性更强。在攻击不同模型时,如从集成模型到IncV4的攻击,IAA成功率达到90.70% ,比SGM高7.73% ,比IR高10.63% 。
    表5:针对不同模型的迁移性:对由ResNet-34、ResNet-152和DenseNet-201这3个模型组成的集成模型进行黑盒攻击(无目标攻击)时的成功率。最佳结果以粗体显示。
    在这里插入图片描述


结论-Conclusion

该部分总结了研究成果、实际应用影响、对未来研究的启发和面临的挑战,具体内容如下:

  1. 研究成果总结:从数据分布视角重新思考对抗扰动,提出用对抗攻击与内在攻击的对齐(AAI)来预测对抗迁移性,经研究证明AAI是有效的度量指标。
  2. 算法提出与验证:提出内在对抗攻击(IAA)算法,通过贝叶斯优化最大化AAI,生成低概率区域的对抗样本。在多个源模型、正常目标模型(包括无目标和有目标攻击场景)以及稳健目标模型上进行实验,结果表明IAA大幅超越现有方法。
  3. 实际应用与影响:IAA生成的对抗样本可愚弄图像搜索引擎,如Google和百度的反向图像搜索,这揭示了深度学习在实际应用中的潜在安全风险。
  4. 对未来研究的启发:研究成果为对抗迁移性和对抗样本的研究开辟了新方向,从数据分布角度为后续研究提供了思路,有助于深入理解深度学习模型的脆弱性。
  5. 面临的挑战:IAA的提出也为黑盒攻击防御带来了新挑战,促使研究人员进一步探索更有效的防御策略,以应对日益复杂的对抗攻击威胁。

http://www.kler.cn/a/546391.html

相关文章:

  • Qt接入deepseekv3 API 提供openssl 1.1.1g安装包
  • win11 MBR 启动 如何把我的硬盘改 GPT win11 的 UEFI 启动
  • Vulhub靶机 ActiveMQ任意 文件写入(CVE-2016-3088)(渗透测试详解)
  • 使用爬虫获取1688商品分类:实战案例指南
  • PMP冲刺每日一题(8)
  • Java 语言深度剖析与实践应用
  • 一文深入了解DeepSeek-R1:模型架构
  • Baumer工业相机堡盟工业相机如何通过NEOAPI SDK实现一次触发控制三个光源开关分别采集三张图像(C#)
  • 基础网络详解4--HTTP CookieSession 思考 2
  • S4D480 S4HANA 基于PDF的表单打印
  • FFmpeg中时长的表示方式
  • 论文笔记:Multi-Head Mixture-of-Experts
  • 数据库开发常识(10.6)——考量使用临时表及表连接写法(3)
  • 聊一聊FutureTask源码中体现的“自旋锁”思想
  • 10G EPON光模块
  • 【Matlab算法】基于人工势场的多机器人协同运动与避障算法研究(附MATLAB完整代码)
  • 交叉编译foxy版ros2部署到ARM上运行
  • Linux入侵检查流程
  • filebeat抓取nginx日志
  • Python实现文件夹监控:自动捕获并处理新增Excel文件,支持子文件夹遍历