当前位置：首页 > article >正文

[大语言模型-论文精读] 词性对抗性攻击：文本到图像生成的实证研究

article 2025/3/10 18:29:08

[大语言模型-论文精读] 词性对抗性攻击：文本到图像生成的实证研究

[大语言模型-论文精读] 词性对抗性攻击：文本到图像生成的实证研究
- 目录
- - 文章
  - 研究背景
- 文章标题
- 摘要
- 1 引言
- 2 相关工作
- 3 数据集创建
- - 3.1 数据收集
  - 3.2 目标提示生成
  - 3.3 数据集注释
- 4 实验
- - 4.1 攻击方法
  - 4.2 实验设置
  - 4.3 评估指标
  - 4.4 结果
  - - 4.4.1 定量评估
  - 4.5 人类评估
  - 5 攻击成功机制
  - - 5.1 对抗性后缀中关键标记数量与ASR之间的相关性
    - 5.2 内容融合的难易程度
    - 5.3 后缀可转移性
- 6 结论
- 7 限制
- - 推荐阅读指数：
- 后记

文章

Adversarial Attacks on Parts of Speech: An Empirical Study in
Text-to-Image Generation
Authors: G M Shahariar, Jia Chen, Jiachen Li, Yue Dong
词性对抗性攻击：文本到图像生成的实证研究
在这里插入图片描述
近期研究表明，文本到图像（T2I）模型对于对抗性攻击非常脆弱，尤其是文本提示中的名词扰动。在本研究中，我们调查了文本提示中不同词性（POS）标签对抗性攻击对T2I模型生成的图像的影响。我们创建了一个高质量的数据集，用于现实的场景中词性标记的交换，并执行基于梯度的攻击以找到误导T2I模型生成更改标记的图像的对抗性后缀。我们的经验结果表明，不同词性标签类别的攻击成功率（ASR）有显著差异，名词、专有名词和形容词最容易受到攻击。我们探索了对抗性后缀转向效应背后的机制，发现不同词性标签中关键标记的数量和内容融合有所不同，而像后缀可转移性这样的特征在各个类别中是一致的。

研究背景

文本到图像（T2I）生成模型如Stable Diffusion、DALL-E2、Imagen和ediff-i在图像生成领域取得了稳步进展，弥合了文本描述和视觉表示之间的语义差距。然而，最近的研究表明，T2I模型对文本提示中的对抗性扰动很敏感，例如插入无意义的单词、短语或无关字符，这可能会显著影响生成的图像。

由于文章内容较长，我将分段为您翻译。

文章标题

对抗性词性攻击：文本到图像生成的实证研究

摘要

近期研究表明，文本到图像（T2I）模型对于对抗性攻击非常脆弱，尤其是文本提示中的名词扰动。在本研究中，我们调查了文本提示中不同词性（POS）标签对抗性攻击对T2I模型生成的图像的影响。我们创建了一个高质量的数据集，用于现实的场景中词性标记的交换，并执行基于梯度的攻击以找到误导T2I模型生成更改标记的图像的对抗性后缀。我们的经验结果表明，不同词性标签类别的攻击成功率（ASR）有显著差异，名词、专有名词和形容词最容易受到攻击。我们探索了对抗性后缀转向效应背后的机制，发现不同词性标签中关键标记的数量和内容融合有所不同，而像后缀可转移性这样的特征在各个类别中是一致的。

1 引言

文本到图像（T2I）生成模型如Stable Diffusion (Rombach et al., 2022; Podell et al., 2023)，DALL-E2 (Ramesh et al., 2022)，Imagen (Saharia et al., 2022)，ediff-i (Balaji et al., 2022)在通过弥合文本描述和视觉表示之间的语义差距来生成图像方面取得了稳步进展。与仅依赖像素操作的传统方法不同，这些模型利用潜在空间中的多模态对齐来解释和合成文本提示中的复杂视觉内容。最近的研究，例如Tang et al. (2023)，解释了文本到图像的交叉对齐是如何通过文本-图像归因分析进行转换的，证明了不同的词性标签在合成过程中被交叉模态注意机制很好地捕获。
在这里插入图片描述

另一方面，研究表明T2I模型对文本提示中的对抗性扰动很敏感，例如插入无意义的单词（Millière, 2022）、短语（Maus et al., 2023）或无关字符（Zhuang et al., 2023），这可能会显著影响生成的图像（Chefer et al., 2023; Salman et al., 2023）。然而，当前对T2I生成模型的对抗性攻击，无论是基于启发式的方法（Zhuang et al., 2023; Gao et al., 2023; Maus et al., 2023）还是基于梯度的自动方法（Zhuang et al., 2023; Liang et al., 2023; Liu et al., 2023; Shahgir et al., 2023; Yang et al., 2024a,b; Du et al., 2024; Zhai et al., 2024），都特别针对文本提示中的实体或对象（即名词），忽略了其他词性。在本文中，我们旨在回答以下两个研究问题：

Q1: 对抗性攻击，特别是针对T2I模型的基于梯度的攻击，在针对不同POS标签类别时是否表现出相似的行为？
Q2: 在针对不同POS标签类别进行对抗性攻击时，与攻击成功率（ASR）相关的共同或不同特征是什么？

为了弥补分析不同POS标签类别攻击机制之间的差距，我们首先创建了一个包含现实场景的数据集，用于交换不同POS标签类别的对抗性攻击。图1提供了我们数据集的一些示例，涵盖了Tang等人（2023）提出的六个POS标签：名词、形容词、动词、副词、数词和专有名词，以及成功误导T2I模型生成与目标属性相关的图像的对抗性后缀。创建这样一个数据集并非易事，因为Shahgir等人（2023）指出，T2I模型对ASR可能受到内部偏见的影响，而不是攻击本身；我们在创建数据集时尽量减小了这种偏见。据我们所知，目前还没有可用于分析除名词外其他POS标签对抗性攻击的数据集（参见表1）。我们使用专门为T2I模型设计的基于梯度的标记搜索算法进行了针对性的对抗性攻击，以有效导航T2I文本编码器的更大词汇量（Shahgir et al., 2023）。攻击目标是创建一个对抗性提示，使得目标POS标记出现在生成的图像中，同时确保输入提示中的原始POS标记不出现。
在这里插入图片描述

2 相关工作

文本到图像扩散模型。Nichol等人（2021）提出了最初的文本到图像（T2I）扩散模型（GLIDE），该模型用文本替换了类条件扩散模型中的类标签（即消融扩散模型（Dhariwal和Nichol, 2021））。作者探索了两种文本条件方法：分类器引导和无分类器引导（CFG）。Saharia等人（2022）提出了Imagen，它遵循GLIDE的无分类器引导（CFG）进行T2I生成。他们利用预训练的大型语言模型（LLM）作为文本编码器，并发现扩大语言模型在提高样本保真度和对齐图像与文本方面的效率更高。Ramesh等人（2022）创建了DALL-E2，这是一个能够使用文本嵌入顺序生成图像的T2I生成模型，通过训练一个生成性扩散解码器来逆转CLIP（Radford等人，2021）的图像编码过程。Rombach等人（2022）通过在预训练的自动编码器的潜在空间内加入去噪方法，并使用交叉注意机制改进了U-Net架构，开发了潜在扩散模型（LDM）。Stability AI利用LDM框架创建并推出了多种文本到图像扩散模型，称为Stable Diffusion系列。

对抗性攻击T2I模型。现有的对T2I模型的对抗性攻击研究主要分为两类：基于查询或启发式的和基于梯度的。在第一类中，最近的研究探索了T2I扩散模型对文本提示的微小变化的过度敏感性。Maus等人（2023）引入了一种基于查询的攻击，发现可以通过添加前缀提示使T2I扩散模型生成特定图像类别。Zhuang等人（2023）通过使用遗传算法向输入提示中附加额外的无意义字符来针对扩散模型的文本编码器。Gao等人（2023）首先基于对生成分布的影响识别关键词，然后应用字符级替换，如错别字、字形变化和音位变化。在第二类中，最近对T2I模型文本编码器的基于梯度的对抗性攻击有所增加。Liu等人（2023）引入了一种梯度引导优化过程，使用梯度来细化连续标记嵌入，通过梯度来导航提示空间并识别失败案例。Yang等人（2024a）探索了一种集中的针对性攻击，增加了目标对象，同时移除了原始对象，并开发了MMP-Attack，该攻击结合了多模态特征。Du等人（2024）提出了自动攻击文本到图像模型（ATM），它通过替换或添加单词自动生成类似于清洁提示的攻击提示。Shahgir等人（2023）应用基于梯度的标记扰动方法，用对抗性后缀标记替换提示中的实体。我们采用了Shahgir等人（2023）提出的梯度攻击方法，因为它与我们的攻击目标一致，并在针对名词时表现出强大的性能。

3 数据集创建

在本节中，我们概述了构建数据集的过程。首先指定数据源，然后描述构建步骤。

3.1 数据收集

在评估不同词性类别的对抗性攻击时，我们遇到的第一个障碍是缺乏现有的数据集进行公平比较。表1比较了现有对抗性攻击数据集的大小、涵盖的词性部分和数据源。为了构建数据集，我们选择了MS-COCO（Lin等人，2014）作为数据源，因为它的标题多样且复杂，适合测试SD的鲁棒性。在MS-COCO的训练拆分中，每张图片都有五个标题。我们只收集了前五个标题中的第一个，得到118,287行数据。选择输入提示。我们使用NLTK库（Bird, 2006）和预训练的POS标记模型（Sajjad等人，2022）从最初收集的数据中识别每个标题的POS标签。我们只关注六个词性标签：名词、动词、副词、形容词、数词和专有名词。对于每个POS标签，我们然后随机选择20个独特的标题，每个标题至少包含一个相应的POS标签，用作输入提示。

3.2 目标提示生成

对于每个POS标签的每个输入提示，我们生成了五个目标提示，每个POS标签得到100个提示对。每个输入和目标提示只有一个单词不同，目标单词从候选词池中选择。生成目标提示的过程从使用相同的NLTK库和预训练的POS标记模型从输入提示中提取POS标记词开始。然后，我们通过收集同一POS类别的其他单词、识别反义词以引入多样性、[MASK]预测获取前五个单词，并探索CLIP标记嵌入空间以找到单词的前k个最远邻居来编制一组候选词。为了提取反义词，我们使用NLTK库和WordNet数据库（Fellbaum,

2010）。对于[MASK]预测，我们使用BERT（Devlin等人，2019）作为掩蔽语言模型。为了识别词汇空间中最远的邻居标记，我们计算提取的输入词嵌入与词汇表中其他标记的嵌入之间的余弦相似度，选择余弦相似度最低的前100个标记。然后过滤这些候选词，确保它们保持相同的POS，同时删除同义词、子词和子字符串，以保持相关性并避免冗余。使用这些过滤后的候选词，我们生成了十个候选提示，并通过[MASK]预测概率排名最高。然后根据它们的困惑度分数对这些提示进行排名，困惑度分数衡量提示的流畅性和连贯性。困惑度分数使用GPT-2模型（Radford等人，2019）计算。最后，选择五个困惑度分数最低的提示，即质量最高的提示，作为最终目标提示。我们为六个POS标签重复此过程，总共得到600个提示对。招募注释者。我们的研究涉及两个注释任务：数据集注释和攻击成功评估。对于这些任务，我们从五名候选人中选择了两名具有视觉和语言相关任务专长的注释者。我们根据他们的信任度分数（Price等人，2020）从一组候选人中选择了他们，这些分数通过对30个图像-文本对的评估确定。我们向他们展示了30个图像-文本对，并询问图像是否准确反映了文本描述（是/否）。从我们的数据集中，我们随机选择了20个文本提示，并为每个提示使用SD生成了一个图像。此外，我们使用ChatGPT创建了10个文本提示，使用提示“为文本到图像生成模型生成10个简单场景”，然后使用SD为每个提示生成了一个图像。这10个图像-文本对作为控制样本，参与者事先不知道。完成任务后，我们评估了每个候选人正确标记的控制样本数量。信任度分数超过90%的候选人被选为注释者。

3.3 数据集注释

我们指派一名注释者评估生成的目标提示的含义。注释者提供了600个提示对。对于每个提示，我们还向注释者展示了使用ChatGPT生成的10个候选目标词。我们使用提示“用以下文本中可能的10个单词替换[MASK]：”来生成ChatGPT生成的候选目标词。如果通过我们的流程生成的目标提示看起来有意义，并且注释者认为它在视觉上是可以表示的，我们指示注释者保留它；否则，我们要求用ChatGPT生成的词池中的替代词替换相应的词。在600个提示对中，注释者选择替换97个目标提示。

4 实验

在本节中，我们概述了基于梯度的对抗性攻击方法，描述了实验设置，并报告了评估攻击效果的结果。

4.1 攻击方法

对Stable Diffusion（Zhuang等人，2023；Shahgir等人，2023；Yang等人，2024a,b；Du等人，2024）的基于梯度的攻击利用梯度信息以一种最大化与预期输出差异的方式来扰动输入提示，有效地操纵图像合成过程。虽然以前的研究主要关注名词，我们的分析通过应用Shahgir等人（2023）提出的基于梯度的攻击框架，将这种方法扩展到其他词性。这种对T2I模型的攻击通常从一个初始提示开始，通过迭代修改来创建一个对抗性提示，该提示最大化一个预定义的评分函数。这涉及到使用标记嵌入器嵌入目标提示和对抗性提示，并通过文本编码器处理它们。核心机制侧重于通过替换标记创建多个候选提示，并计算top-k标记候选。选择最大化评分函数的最佳候选提示，并使用关于对抗性提示的损失函数的梯度来迭代细化提示。这种迭代优化调整对抗性提示，逐渐增加模型对目标提示和对抗性提示的输出之间的差异，有效地欺骗T2I生成模型。攻击的更多细节在附录B中提供。我们在无限制和有限制的两种不同设置下进行了针对性攻击。在无限制设置中，我们允许对抗性提示包括目标标记或其子标记作为后缀标记。然而，在有限制的攻击场景中，我们通过限制目标标记的所有可能子串在对抗性提示中出现，从而限制了目标标记在对抗性提示中出现。

4.2 实验设置

我们遵循Shahgir等人（2023）的设置，并对每对进行了五次攻击，每次运行100步，使用10个对抗性标记。对于每一步，我们选择前256个标记作为候选标记，并生成512个新提示，通过随机替换标记来生成。随后，我们为每次攻击生成七幅图像，总共评估了21,000幅生成的图像（600对，5次运行，每次运行7幅图像）。在图像生成过程中，我们将分辨率设置为512×512，推理步骤数设置为50，无分类器引导的尺度设置为7.5。作为受害模型，我们使用Stable Diffusion v1.5（SD v15）进行图像生成和性能评估，利用在包含文本-图像对的数据集上预训练的CLIP模型。所有实验（攻击执行、评估和图像生成）都是使用单个Nvidia RTX 3090 GPU进行的，总共大约600 GPU小时。攻击单个输入-目标提示对的执行时间大约为8分钟。

4.3 评估指标

攻击成功率。我们认为如果由对抗性提示生成的图像与目标文本匹配，则攻击成功；否则，我们认为它不成功。由于我们为每个对抗性提示生成了七幅图像，为了衡量攻击成功率（ASR），我们认为如果至少有4幅图像的匹配分数高于阈值，则攻击成功。按照（Shahgir等人，2023），我们将此阈值设置为3.41。我们通过计算输入提示和生成图像的CLIP分数与目标文本和生成图像的CLIP分数之间的差异来确定匹配分数。CLIP分数衡量图像的CLIP视觉嵌入与文本的CLIP文本嵌入之间的余弦相似度。对于每个输入-目标提示对，我们运行攻击五次，生成五个对抗性提示，并考虑如果至少有一个成功，则攻击成功。语义偏移率。为了定量衡量对抗性后缀标记的有效性，我们使用了语义偏移率（SemSR）（Zhai等人，2024），它衡量生成图像与文本提示之间的语义。SemSR利用CLIP的多模态嵌入空间，并通过余弦相似度计算生成图像与提示之间的语义相似度。此度量量化了在向对抗性后缀添加后，生成图像在向量空间中的偏差。由于实现不同目标语义所需的偏差量不同，因此通过最大偏差进行调整。SemSR方程如下：
[ \text{SemSR} = \frac{CS(EI_a, EP_a) - CS(EI_i, EP_i)}{CS(EI_t, EP_t) - CS(EI_i, EP_i)} ]
其中CS表示CLIP分数，Ia表示由对抗性提示生成的图像，Ii表示由输入提示生成的图像，It表示由目标提示生成的图像。对于单个输入-目标提示对，我们在五次运行中测量SemSR分数的平均值。

4.4 结果

在图11中，我们展示了通过无限制和有限制攻击方法生成的图像的一些示例。表2显示了在所有提示对中，每个POS标签在两种攻击条件下的平均攻击成功率（ASR）和平均语义偏移率（SemSR）。下面，我们提供实验的定量分析和人类评估。
在这里插入图片描述

在这里插入图片描述

4.4.1 定量评估

表2显示了ASR和SemSR指标，这些指标是每个POS标签的100个数据点的平均值。

更高ASR和SemSR值表示更好的性能。从表中可以看出，在无限制攻击的情况下，两者的ASR和SemSR都超过了有限制攻击，除了动词和副词POS标签。这表明允许目标标记成为连接的对抗性后缀标记会导致对抗性攻击的成功率更高。显然，在无限制攻击中，更容易产生包含目标POS标记而不是输入POS标记的图像。我们还观察到，在有限制和无限制攻击中，名词表现出更高的ASR值，比其他POS标签更容易受到对抗性攻击。专有名词和形容词显示出适度的成功率，而动词和数词表现出更低的成功率。

另一方面，副词在两种类型的攻击中的成功率最低，表明它们对对抗性操纵的抵抗力更高。SemSR值量化了文本和相应生成图像之间由于对抗性攻击引起的语义差异。更高的SemSR值表示更大的语义变化。通过分析SemSR值，我们发现攻击名词和形容词相对简单，而副词则表现出更大的困难。这表明名词和形容词在语义上发生了更显著的变化，而副词的变化最小。此外，SemSR值在不同POS标签中相对稳定，无论是无限制攻击还是有限制攻击。然而，在无限制攻击中，形容词表现出最大的语义变化，而在有限制攻击中则不是这样。数词在两种攻击类型中始终显示出第二高的语义变化。

4.5 人类评估

我们利用两名注释者的帮助评估了攻击的有效性。我们随机选择了每个POS标签的15个提示对，总共有90个提示对用于无限制和有限制攻击设置。每个提示对向注释者展示了7幅图像（因为我们的实验中每次运行生成了7幅图像），然后评估至少有4幅图像是否与目标提示或输入提示高度一致（是/否）。我们使用谷歌表格（附录J）收集注释者的评估，其中包含生成的图像和两个复选框，用于输入文本和目标文本。我们通过注释者分类匹配的提示对数量来确定分数。由于有两名评估者，我们计算他们的分数平均值，并在表3中展示结果。表格表明注释者一致认为动词、副词和数词更难受到对抗性攻击的影响。在数词的情况下，注释者报告说大多数攻击后生成的图像与目标或输入提示都不匹配。我们观察到无限制攻击倾向于生成与目标提示更匹配的图像，比有限制攻击更好。我们使用Cohen’s Kappa（κ）指标（Cohen, 1960）来衡量注释者在目标文本-图像匹配上的一致性，无限制设置的得分为0.796，有限制设置的得分为0.745，表明一致性很高。从表2和3中，我们观察到平均ASR与人类评估目标文本-图像匹配在两种设置中都呈现出强烈的正相关（无限制设置的皮尔逊=0.988和斯皮尔曼=1.00；有限制设置的皮尔逊=0.980和斯皮尔曼=0.986）。另一方面，平均SemSR与人类评估在两种攻击场景中的相关性非常弱（无限制攻击场景的皮尔逊=-0.126和斯皮尔曼=-0.143），和有限制攻击场景的皮尔逊=-0.176和斯皮尔曼=-0.087）。鉴于平均ASR与人类判断的相关性更高，它比平均SemSR更可靠地用于评估攻击POS标签的成功。因此，我们在所有后续章节中使用ASR来评估攻击成功。

5 攻击成功机制

在本节中，我们探索了对抗性后缀转向效应背后的机制。我们确定了（a）在不同POS类别中变化并在解释ASR差异中起作用的特征，如对抗性后缀中关键标记的数量和内容融合，以及（b）在不同POS类别中一致且不解释ASR率变化的一般特征，但提供了一般见解，如后缀可转移性。

5.1 对抗性后缀中关键标记数量与ASR之间的相关性

成功的攻击表明，将对抗性后缀附加到输入提示上有效地将文本嵌入向目标提示方向转移，突出了后缀标记的重要作用。为了调查这一点，我们对几个对抗性后缀进行了标记化，为每个标记生成了图像，以隔离它们的贡献，并发现一些标记生成了与目标POS标记相关的图像。这一观察引导我们确定了对抗性后缀中起最关键作用的标记。我们将“关键标记”定义为那些去除后导致攻击失败的标记。为了确定后缀中的关键标记，我们生成了所有可能的后缀标记组合，用|endoftext|标记替换。对于每种组合，我们生成了一个图像，并询问预训练的视觉-语言模型BLIP1（Li等人，2022），以检查生成的图像是否与目标提示匹配。我们确定了替换最少的标记组合，被替换的标记被认为是关键的，因为它们的缺失导致了攻击的失败。未被|endoftext|替换的标记被认为是非关键的。我们在表4中展示了所有POS标签中关键标记的平均数量，并在图2中比较了不同POS标签中关键标记的长度。关键标记的数量通常在不同POS类别中更高。然而，有限制的设置显示出更多的关键标记，因为缺少目标词需要其他标记来补偿并保持攻击的有效性。我们发现副词、数词和动词更难受到对抗性攻击的影响，因为它们依赖于后缀中更多的关键标记。这促使我们探索后缀中的每个关键标记是否对攻击的成功有相同的贡献。因此，从后缀中移除一些或所有关键标记应该会显著降低ASR。为了测试这一点，在两种设置中，我们从后缀中移除了关键标记的所有可能组合，同时保持非关键标记不变。然后我们计算了每次组合的ASR，方法是查询BLIP，并取平均值。我们发现ASR在不同POS类别中显著下降。表4显示，副词、数词和动词由于依赖于更多的关键标记，因此更难攻击，当这些标记被移除时，ASR显著下降。然而，名词、专有名词和形容词相对容易受到攻击。尽管它们有大量的关键标记，但当关键标记被移除时，这些类别的ASR仍然相当高，但仍然显著下降。例如，在无限制设置中，攻击成功率从65（总成功攻击）下降到大约13（0.195 * 65），当关键标记被移除时。因此，我们得出结论，对抗性后缀中关键标记的数量与ASR高度相关。有些POS标签更难攻击，因为攻击算法必须找到具有更多关键标记的对抗性后缀。

5.2 内容融合的难易程度

我们观察到，虽然对抗性后缀引导了目标属性的生成，但它们经常未能完全移除原始标记。这导致由Stable Diffusion生成的图像包含了输入和目标属性，我们称之为内容融合。我们发现，随着ASR的降低，不同POS类别中的内容融合难度减小。例如，当尝试将名词“汽车”更改为“摩托车”时，生成的图像通常同时包含汽车和摩托车。对于专有名词，将“圣诞老人服装”更改为“万圣节服装”可能会产生带有万圣节主题颜色的圣诞老人服装。对于形容词，尝试将“白天鹅”更改为“黑天鹅”可以导致产生同时为黑色和白色的天鹅图像。我们在附录I中展示了形容词融合的示例。相反，动词更难混合或生成在一起；例如，很难创建一个人同时站立和躺卧的图像。同样，在数词的情况下，尝试将“三只苹果”更改为“五只苹果”通常无法产生同时有三只和五只苹果的图像。对于副词，将“快速奔跑”更改为“缓慢奔跑”并不会产生同时描绘快速和缓慢奔跑的图像。我们认为，这种不同的内容融合难易程度是由于与ASR相关的关键标记数量。在名词、专有名词和形容词等类别中，关键标记的数量相对较低，因此融合更容易。然而，在动词、数词和副词等关键标记数量更多的类别中，融合是不可能的。

5.3 后缀可转移性

我们发现不同POS类别的一个共同特征：对抗性后缀的可转移性。我们观察到，识别出的对抗性后缀可以普遍转移到同一POS标签的其他输入提示中。这表明单一对抗性后缀可以将具有不同属性的各种输入提示转换为具有相同目标属性的图像。例如，针对名词“摩托车”的对抗性后缀可以使模型从不同的名词提示（如“飞机”、“汽车”和“鸟”）生成摩托车图像。我们在附录G（图10）中提供了一些示例。此外，为了解释为什么这种普遍的可转移性有效，我们通过遵循Du等人（2024）的方法，展示了对抗性后缀单独可以通过操纵目标提示来控制Stable Diffusion的输出。首先，我们将成功的对抗性提示分成两部分：输入提示和对抗性后缀。然后我们分别提取文本嵌入，确保每个部分在处理成自己的嵌入时不受其他部分的影响。输入提示和后缀的嵌入然后被连接起来。连接（⊕）意味着将这两个嵌入组合成一个组合嵌入，Stable Diffusion将使用该嵌入进行图像生成。我们观察到，使用连接文本嵌入生成的最终图像与目标提示匹配。我们重复所有成功攻击示例的程序，并发现所有POS标签的结果一致。更多细节可以在附录G中找到。

6 结论

在这项研究中，我们评估了针对文本提示中六个POS标签的基于梯度的对抗性攻击，无论是无限制还是有限制的攻击策略。我们揭示了这些攻击对Stable Diffusion的影响，揭示了对抗性图像生成中的关键因素。我们的发现表明，名词、专有名词和形容词特别容易受到干扰，从而导致对抗性图像生成。然而，我们看到动词、副词和数词对对抗性攻击表现出更高水平的抵抗力，
对Stable Diffusion生成的视觉输出影响最小。我们假设对抗性后缀中的关键标记数量和内容融合的难易程度是造成这种抵抗力的主要原因。我们相信这些发现对于增强T2I生成系统的鲁棒性将非常有价值。

7 限制

我们使用了Stable Diffusion模型进行基于梯度的攻击。值得注意的是，攻击方法可能无法有效地推广到其他封闭源T2I生成模型，如Imagen（Saharia等人，2022）或DALL-E2（Ramesh等人，2022），因为它们在架构、文本编码器和训练数据上的差异。此外，本研究中用于评估攻击的指标可能无法完全捕捉攻击后图像的合理性或语义准确性。我们只评估了六个特定的POS标签的攻击，这可能不包括所有可能的场景，如介词、连词、感叹词、冠词和限定词。此外，该方法依赖于向原始提示中附加后缀标记，这可能不是操纵图像生成过程的最优化方法，考虑到T2I模型对标记顺序的敏感性。作为附加的对抗性后缀标记可能缺乏意义，攻击方法找到的对抗性提示在自然性上有所降低。