Causality Based Front-door Defense AgainstBackdoor Attack on Language Models
1. 概述
大型语言模型(LLMs)由于其在语言理解和生成方面的出色能力而得到广泛采用。然而,由于LLM训练需要大量的计算资源,大多数应用开发者不得不依赖第三方提供的数据集、计算基础设施和其他资源。因此,他们面临着高风险的潜在后门攻击,这些攻击通过毒化数据源来误导开发者的模型训练。文献中已有证据表明,后门攻击通过在文本中同时插入触发器并篡改标签来破坏LLM训练。例如,后门攻击可以使攻击者在招聘、评论和判断系统中巧妙地、选择性地修改模型的预测结果。因此,开发强有力的防护机制对抗这些后门攻击是至关重要的。
针对后门攻击的防御方法已经引起学术界的广泛关注。目前的文献发现了各种类型的攻击,并为每种发现的攻击开发了相应的防御方法。然而,大多数现有的防御方法仅对特定类型的后门攻击有效,这些攻击具有特定的特征。这些防御方法是根据目标攻击的具体特征设计的。例如,一些方法旨在移除特定的触发器。然而,在现实世界中,攻击的类型难以预见。各种类型的攻击也可能结合出现。因此,我们需要一种通用的防御方法,能够有效应对各种类型的后门攻击。然而,目前缺乏不依赖于攻击类型假设的防御方法。
因果推断理论能够很好地解释为什么现有的防御方法依赖于特定类型的攻击特征,并提供了对攻击防御的新见解。正如图1所示,后门攻击通过