当前位置：首页 > article >正文

【大语言模型】ACL2024论文-30 探索语言模型在文本分类中的伪相关性：概念层面的分析

article 2024/12/23 7:03:10

- 目录
- - 文章
  - 摘要
  - 研究背景
  - 问题与挑战
  - 如何解决
  - 创新点
  - 算法模型
  - - 概念标签获取
    - 测量概念伪相关性
    - 模型鲁棒性评估
    - 数据重平衡技术
  - 实验效果
  - - 伪相关性测量结果
    - 减轻伪相关性的方法
  - 重要数据与结论
  - 推荐阅读指数：★★★★☆
- 后记

文章

探索语言模型在文本分类中的伪相关性：概念层面的分析
https://arxiv.org/pdf/2311.08648
在这里插入图片描述

摘要

本文研究了语言模型（LMs）在文本分类任务中由于训练数据中不平衡的标签分布或上下文学习（ICL）示例而产生的伪相关性问题。以往的研究主要集中在单词、短语和句法特征上，而忽略了概念层面，这通常是由于缺乏概念标签和难以识别输入文本中的概念内容。本文的主要贡献有两个：首先，我们使用ChatGPT为文本分配概念标签，评估模型在细调和ICL测试数据中的概念偏差；其次，我们引入了一种数据重平衡技术，通过结合ChatGPT生成的反事实数据，平衡标签分布，减轻伪相关性。我们的方法在减少偏见的同时保持了LMs的效用（即准确性），并通过广泛的测试验证了其有效性。

研究背景

预训练语言模型（LMs）在自然语言理解任务中表现出色。然而，LMs在微调或遵循指令阶段面临鲁棒性挑战，这些挑战源于训练数据中不平衡的标签分布或ICL示例中的伪相关性。这些相关性涉及在训练数据中普遍存在的特定特征与标签之间的关联，这些关联被错误地泛化为规则，导致性能下降。当前关于LMs中伪相关性的研究涵盖了多个维度，如文本分类中的标记级捷径、自然语言推理中的句法启发式和文本分类中的句子触发器。此外，与种族或性别等人口统计概念的伪相关性引发了公平性问题。然而，很少有研究涉及更广泛概念层面的语义伪相关性。
在这里插入图片描述

问题与挑战

定义概念层面的伪相关性：在训练数据（或提示）中，大多数包含特定概念的文本与特定标签相关联，导致LMs不适当地依赖这种关联进行预测。例如，在训练数据或提示中，“食品”概念与标签1之间的普遍关联导致LMs形成概念层面的伪相关性，错误地将一些与“食品”相关的文本归类为标签1。LMs倾向于学习概念层面的捷径，这可能源于在微调或预训练期间为与同一概念相关的表达形成相似嵌入，由于它们的语义相似性而受到驱动。

如何解决

我们首先使用ChatGPT为文本分类数据集中的句子注释概念标签，并预测这些概念标签的存在。然后，我们通过在测试数据上进行细调和ICL来评估模型，以确定LMs是否在训练或提示中遇到概念与标签之间的伪相关性时依赖捷径进行预测。最后，我们引入了一种数据重平衡技术，通过结合ChatGPT生成的反事实数据，平衡标签分布，减轻伪相关性。