LLMs基础学习(二)涌现能力、Scaling Law 和 幻觉
文章目录
- LLM基础学习(二)
- 七、LLMs中的涌现能力
- “涌现能力” 的定义
- 涌现能力成因的两大猜想
- 小结
- 八、Scaling Law的理解
- Scaling Law 的目标与定义
- 主流观点对比
- 小结
- 九、LLM中的“幻觉”
- 幻觉问题定义
- 幻觉产生原因
- 幻觉评估方法
- 幻觉缓解策略
- 案例方法深入(《A Stitch in Time Saves Nine》)
LLM基础学习(二)
原视频链接
七、LLMs中的涌现能力
“涌现能力” 的定义
- 概念:复杂系统中,大量微小个体相互作用,在宏观层面展现出微观个体无法单独解释的特殊现象,即 “涌现现象”。在 LLMs 中,模型达到一定规模后,会展现预训练阶段未刻意学习的能力(如复杂推理),即为 “涌现能力”。(新的结论的猛然出现~)
- 生活案例:雪花形成、堵车、动物迁徙等,以雪花为例,微观水分子在温度条件下相互作用,宏观形成规则对称的结构,体现微观到宏观的涌现。
涌现能力成因的两大猜想
-
猜想一:任务的评价指标不够平滑
- 核心逻辑:部分任务评价指标过于严格(如要求完全精确匹配),导致模型能力提升呈现 “突然涌现” 的假象。
- 案例说明:
- Emoji_movie 任务:输入 Emoji,要求 LLM 输出完全正确的电影名(错一个词即算错)。小模型(2m 参数)无法完成,随模型规模增至 128B 才完全正确。但实际上,模型在 125m、4b 参数时已逐渐接近答案。
- 对比实验:若将任务改为多选题(降低评价严格度),模型效果随规模稳定提升,涌现现象消失,说明严格评价指标放大了能力提升的 “突变感”。
-
猜想二:复杂任务 vs 子任务
- 核心逻辑:涌现现象常出现在由多个子任务构成的复杂任务中。子任务效果随模型规模增长符合 Scaling Law(平滑提升),但复杂任务整体因子任务组合,宏观呈现 “涌现”。
在大语言模型(LLMs)领域,Scaling Law(缩放定律) 描述了模型性能与参数规模、数据量、计算资源之间的规律性关联,即通过按比例扩大模型参数、数据量和计算资源,模型性能会以可预测的方式提升。
- 案例说明:
- 国际象棋任务:
- “将死” 评估(复杂任务):模型需完成一系列合法移动最终 “将死”,评价指标严格(仅 “将死” 算赢)。随模型规模增大,表现缓慢上升,呈现涌现。
- 合法移动评估(子任务):模型在合法移动步骤中正确选择,效果随模型规模持续提升,无涌现现象。
- 假设推演:若任务 T 由 5 个子任务构成,每个子任务指标从 40% 提升到 60%,最终任务指标可能从 1.1% 跃升至 7.8%,宏观呈现涌现,而子任务实际平滑增长。
- 国际象棋任务:
小结
当前关于 LLMs 涌现能力的主流猜想:
- 任务评价指标不够平滑,严格指标放大能力突变表象;
- 复杂任务由多个子任务构成,子任务符合 Scaling Law,复杂任务整体呈现涌现。
八、Scaling Law的理解
Scaling Law 的目标与定义
- 目标
- 在训练前通过计算量、数据集规模、模型规模等因素,预测模型最终能力,辅助优化模型对齐、安全和部署决策。
- 示例:通过图表展示 GPT-4 和较小模型在代码库数据集上的损失表现,虚线(幂律拟合)精准预测了 GPT-4 的最终损失,体现 Scaling Law 对模型性能的预测能力。
- 定义
- 利用计算量、数据集规模、模型规模,以简单函数(如线性、幂律关系)预测模型最终能力。
- 大语言模型训练中,需权衡计算成本(如 GPU 数量、训练时间)、数据集大小、模型参数量,通过三方平衡提升模型性能。
主流观点对比
-
OpenAI 的研究(2020 年)
- 核心观点:
- 语言建模性能与计算量、数据集大小、模型规模呈幂律关系,任一因素受限都会影响性能。
- 三要素影响程度:计算量>参数>>数据集大小。
- 最佳训练策略:在固定计算预算下,训练参数量大的模型并提前停止训练(Early Stopping),大模型样本效率更高,能用更少数据和优化步骤达相同性能。
- 核心观点:
-
DeepMind 的研究(2022 年)
- 核心观点:
- 模型大小和训练数据量应按相等比例扩展(如模型大小加倍,数据量也加倍)。(我比较认同。)
- 给定计算预算,存在最优解:模型过小时,在较多数据上训练更大模型更好;模型过大时,在更多数据上训练较小模型更优。
- 强调高质量数据集扩展的重要性,大模型需匹配高质量、大规模数据才能发挥优势。
- 核心观点:
小结
- Scaling Law 定义:通过计算量、数据集、模型规模预测模型能力。
- OpenAI 观点:三要素互相关联,计算量影响最大,性能与单要素呈幂律关系。
- DeepMind 观点:模型和数据量应等比例扩展,注重计算预算下的最优平衡,强调数据质量。
九、LLM中的“幻觉”
幻觉问题定义
-
核心概念
当大语言模型生成的文本不遵循输入源信息(缺乏一致性,Faithfulness),或不符合客观事实(缺乏事实性,Factuality),即产生幻觉。例如,回答 “爱因斯坦的贡献” 时,若模型称 “发现万有引力”,既违背输入问题的指向(一致性),也不符合事实(事实性),属于典型幻觉。 -
关键维度解析
- Faithfulness(一致性):
- Intrinsic Hallucination(信息冲突):生成内容与输入信息直接冲突。如用户输入 “手机发布会介绍新摄像头技术”,模型却称 “未提及摄像头”,即为信息冲突。
- Extrinsic Hallucination(无中生有):输出包含输入中没有的虚构信息。如用户问 “推荐旅游城市”,模型回复 “北京有魔法城堡景点”,“魔法城堡” 是无中生有的幻觉。
- Factuality(事实性):内容与世界知识不符。如模型称 “地球是宇宙中心”,明显违背科学事实,属于事实性幻觉。
- Faithfulness(一致性):
-
传统任务与 LLMs 幻觉差异
传统任务(如特定领域文本生成)的幻觉多集中于 Faithfulness,因任务范围固定;而 LLMs 因开放域对话特性,需处理任意世界知识,Factuality 问题更突出。如回答 “现任法国总统是谁” 时答错,是 LLMs 特有的 Factuality 幻觉。
幻觉产生原因
-
数据层面
- 训练数据可信度低:
大模型数据多通过众包、爬虫收集,难完全筛选。如包含网络谣言、错误百科内容,模型学习后会记忆错误知识。例如训练数据中 “闰年计算规则” 错误,模型生成相关内容时会传播错误。 - 数据重复与偏差:
重复数据使模型对错误信息过度强化。如某错误知识点高频出现,模型会形成 “知识记忆偏差”,生成时自然出现幻觉。
- 训练数据可信度低:
-
模型层面
- 解码算法缺陷:
top-p 采样为追求多样性,可能选中低概率错误词。如生成 “天空是绿色”,虽语法正确,但违背事实。 - 训练与推理数据差异:
训练时模型基于真实标注学习,每一步输入真实前文;但推理时仅依赖自身生成内容,无真实数据约束,错误随生成长度累积。如长文本故事生成,开头正确,后续因无引导逐渐出现幻觉。
- 解码算法缺陷:
幻觉评估方法
-
基于参考的评估(Reference-based)
- 评估逻辑:以参考文本(如标准答案、原始数据源)对比生成内容。
- 常用指标:
- ROUGE:用于摘要任务,计算短语重叠率。如标准摘要含 “技术创新”,生成摘要包含即算匹配。
- BLEU:适用于机器翻译,衡量词序匹配程度。
- Knowledge F1 步骤:
- 知识检索:从知识库提取模型生成可参考的知识。
- 知识匹配:对比生成内容与检索知识,标记一致部分。
- 计算 F1:精确率(生成内容中正确信息比例)与召回率(知识中被正确生成的比例)的调和均值。
- 优势:不依赖单一答案,适合多样化任务,高 F1 分表示幻觉少。
-
无参考评估(Reference-Free)
-
基于信息抽取(IE):
- 方法:将生成内容转为结构化三元组(如 “<主体 - 谓词 - 客体>”),用验证模型检查真实性。例如,生成 “苹果公司发布新产品”,转为 “< 苹果公司,发布,新产品 >”,再验证是否符合事实。
- 缺点:IE 模型可能抽错信息,且复杂内容难用三元组表示。
-
基于问答(QA):
- 流程:用问题生成模型基于生成内容生成问题,再用问答模型回答,对比答案评估真实性。如生成 “巴黎是法国首都”,生成问题 “巴黎是哪个国家的首都?”,问答模型若答 “法国” 则正确,反之则可能有幻觉。
- 局限:依赖 IE 生成问题,若 IE 出错则影响结果,且难覆盖所有知识。
-
基于自然语言推理(NLI):
- 原理:通过 NLI 模型判断生成内容与源信息是否存在 “蕴含” 关系。如源信息 “爱因斯坦提出相对论”,生成 “相对论由爱因斯坦发现”,NLI 模型判断是否蕴含。
- 不足:NLI 模型事实核查能力有限,且 “幻觉” 与 “不蕴含” 不等价,可能误判。
-
事实性分类指标:
- 操作:人工标注含幻觉与真实数据的数据集,训练分类模型(如 BERT 分类器)判断新生成内容是否符合事实。
- 问题:依赖大量标注,成本高,且复杂幻觉检测效果有限。
-
人工评估:
- 优势:最准确,能识别复杂幻觉,尤其适合多样化开放域内容。
- 缺点:耗时耗力,成本极高,难以大规模应用。
-
幻觉缓解策略
-
数据层面优化
-
人工标注:
- 训练数据:针对特定任务(如医疗问答)标注高质量数据,如医疗领域标注医生审核的问答对。
- 评测数据:构建细粒度幻觉评估基准集,包含各种幻觉类型,分析模型幻觉模式。
-
自动筛选 :
- 剔除不良数据:用规则或模型识别并删除含虚假信息的样本,如通过关键词过滤。
- 加权可靠数据:预训练时对权威数据(如维基百科)赋予更高权重,增强模型对正确知识的依赖。
-
-
模型层面改进
-
结构优化:
- 编码更多信息:引入图神经网络(GNN),捕捉实体关系,如处理 “城市 - 国家 - 地标” 关系。
- 减少生成随机性:调整解码参数,降低采样随机性,优先选择高概率正确词。
- 增强检索:集成外部检索系统(如 LLaMA-index),生成时检索权威知识,如回答历史问题时先检索资料。
-
训练方式改进:
- 可控文本生成:在训练目标中加入 “幻觉惩罚”,引导可靠生成。
- 提前规划内容框架:采用 “草图到内容” 策略,先生成大纲再填充细节,如写文章先列主题句。
- 强化学习:将 “减少幻觉” 设为奖励信号,优化生成策略。
- 多任务学习:同时训练事实判断任务,提升模型对幻觉的识别能力。
- 后处理优化:训练小型模型检测并修正幻觉,如识别错误事实后替换为正确内容。
-
案例方法深入(《A Stitch in Time Saves Nine》)
-文章《A Stitch in Time Saves Nine》提出:通过 logit 输出的概率分布检测低置信度生成内容,结合外部知识验证,主动修复幻觉,并阻止其在后续生成中传播。
-
核心发现:
- 幻觉具传播性,前文幻觉会导致后续更严重错误。如第一句 “作家 A 写了《错误书名》”,后续可能围绕错误展开更多描述。
- logit 输出的概率分布可作幻觉信号:计算生成词的 “概率得分”,得分低表示模型不自信,此时验证内容可检测幻觉。
-
解决流程:
- 检测阶段:分析生成内容的重要概念,计算模型对概念的不确定性。如生成 “某药疗效” 内容,检索医学知识验证。
- 缓解阶段:用检索到的正确知识修复幻觉句子,如将错误药名改为正确名称。
- 迭代生成:把修复后的句子加入输入继续生成,阻止幻觉传播,通过循环减少当前幻觉并防止新幻觉产生。