第10章 大模型的有害性(下)
在本章中,我们继续探讨大型语言模型(LLM)可能带来的有害影响,重点讨论有毒性(toxicity)和虚假信息(disinformation)。这些影响不仅影响用户的体验,也可能对社会产生深远的负面效应。
10.1 概述
除了前面讨论的性能差异和社会偏见外,大型语言模型可能产生的有毒性和假信息也是其潜在的有害影响。这些问题源自模型生成内容的方式,可能导致个体或群体受到伤害。需要特别注意的是,语言模型与这些伤害之间并不是直接的因果关系,而是需要从社会背景和使用环境来综合考虑其危害。
例如,像Facebook、Twitter和YouTube这样的社交平台,已经开始依赖AI来审核平台上发布的有害内容,包括仇恨言论、骚扰、暴力、假信息等。随着AI技术的应用,内容审核过程逐渐自动化,以应对庞大的平台用户量。然而,审核哪些内容是有害的仍然是一个复杂且具有政治性的决策。
10.2 有毒性
有毒性是指内容中含有粗鲁、不尊重或可能使人想要退出对话的行为。根据Borkan等人(2017)的定义,有毒性是“粗鲁、不尊重或不合理的行为,可能使某人想要离开一场对话”。
- 有毒性的难题:有毒性不仅仅是通过识别"坏词"来界定的,因为一些文本虽然包含了“坏词”,但在特定的语境中并不具备伤害性;例如医学讨论中涉及性别、性教育等话题,尽管可能包含敏感词汇,但并不应视为有毒性。相反,一些没有明显攻击性词汇的文本也可能具有有毒性,比如关于跨性别女性的贬低言论。
10.2.1 Perspective API
Google的Jigsaw部门开发的Perspective API用于衡量文本的毒性。这项技术通过机器学习模型分析文本,并为每个输入文本分配一个毒性分数,范围从0到1。然而,这个API也存在局限性,尤其在处理不同语境时其一致性较低,且可能对某些群体产生偏见。例如,当提到“gay”时,系统可能错误地将其与毒性相关联,因为该群体往往遭受更多的负面评论。
10.2.2 RealToxicityPrompts
Gehman等人(2020)推出的RealToxicityPrompts数据集,用于评估语言模型生成的毒性。在测试过程中,GPT-3生成的文本有时展现出较高的毒性,即使是非毒性提示也可能引发有毒内容的生成。对于毒性较高的提示,GPT-3生成的文本中的毒性得分可能达到75%以上。
10.2.3 缓解毒性
研究表明,减少语言模型生成毒性内容的策略是可行的,但效果有限。一些缓解策略,如基于数据的微调(DAPT)和解码策略(PPLM),虽然能减少生成的毒性,但也可能带来负面影响,譬如对特定文化背景的理解不充分,或者对边缘化群体的偏见。
10.3 虚假信息
虚假信息和误导性信息的传播对社会构成了威胁。虚假信息(disinformation)指的是故意传播错误信息以误导公众,而误导性信息(misinformation)指的是无意中传播的错误信息。虚假信息的危害尤为严重,尤其当其通过社交媒体等平台迅速传播时,能够对选举、公众健康等社会问题产生重大影响。
10.3.1 虚假信息战役的现状
语言模型的强大生成能力使得虚假信息的制造变得更加快捷和廉价。恶意行为者可以利用GPT-3等大型语言模型生成高度真实的虚假新闻和社交媒体帖子,甚至通过微调和提示设计来定向传播特定的虚假信息。与人类生成虚假信息相比,AI的应用能大幅提升效率,节省成本。
- 虚假信息的经济学角度:语言模型的应用可能会使得虚假信息的传播更加高效。使用AI生成的虚假信息能快速扩散,影响目标受众,尤其是在政治选举和公共事件中,可能对选民行为产生重大影响。
10.3.1.1 相关工作
GPT-3在生成新闻文章和社交媒体内容时,表现出很高的真实性,使得这些文本几乎无法与真实新闻区分。研究表明,经过微调的语言模型可以生成与真实新闻几乎无法区分的内容,这使得它在虚假信息战役中的潜力不可小觑。
例如,McGuffie和Newhouse(2020)指出,GPT-3可能被用于网络激进化,帮助恶意行为者通过创建特定群体的叙事来影响社会舆论。
10.4 内容审查
尽管大型语言模型有可能生成有害内容,它们也可以被用于检测有害内容。Facebook(现Meta)和其他社交平台正在利用AI技术进行内容审核。Meta的**“少量样本学习器”**(Few-Shot Learner)模型能够自动识别和判断仇恨言论、骚扰等有害内容,并通过语言模型来预测和筛选这些内容。