当前位置：首页 > article >正文

LLMs基础学习（二）涌现能力、Scaling Law 和幻觉

article 2025/3/14 17:03:09

文章目录

LLM基础学习（二）
- 七、LLMs中的涌现能力
- - “涌现能力” 的定义
  - 涌现能力成因的两大猜想
  - 小结
- 八、Scaling Law的理解
- - Scaling Law 的目标与定义
  - 主流观点对比
  - 小结
- 九、LLM中的“幻觉”
- - 幻觉问题定义
  - 幻觉产生原因
  - 幻觉评估方法
  - 幻觉缓解策略
  - 案例方法深入（《A Stitch in Time Saves Nine》）

LLM基础学习（二）

原视频链接

七、LLMs中的涌现能力

“涌现能力” 的定义

概念：复杂系统中，大量微小个体相互作用，在宏观层面展现出微观个体无法单独解释的特殊现象，即 “涌现现象”。在 LLMs 中，模型达到一定规模后，会展现预训练阶段未刻意学习的能力（如复杂推理），即为 “涌现能力”。（新的结论的猛然出现~）
生活案例：雪花形成、堵车、动物迁徙等，以雪花为例，微观水分子在温度条件下相互作用，宏观形成规则对称的结构，体现微观到宏观的涌现。

涌现能力成因的两大猜想

猜想一：任务的评价指标不够平滑
- 核心逻辑：部分任务评价指标过于严格（如要求完全精确匹配），导致模型能力提升呈现 “突然涌现” 的假象。
- 案例说明：
  - Emoji_movie 任务：输入 Emoji，要求 LLM 输出完全正确的电影名（错一个词即算错）。小模型（2m 参数）无法完成，随模型规模增至 128B 才完全正确。但实际上，模型在 125m、4b 参数时已逐渐接近答案。
  - 对比实验：若将任务改为多选题（降低评价严格度），模型效果随规模稳定提升，涌现现象消失，说明严格评价指标放大了能力提升的 “突变感”。
猜想二：复杂任务 vs 子任务
- 核心逻辑：涌现现象常出现在由多个子任务构成的复杂任务中。子任务效果随模型规模增长符合 Scaling Law（平滑提升），但复杂任务整体因子任务组合，宏观呈现 “涌现”。

在大语言模型（LLMs）领域，Scaling Law（缩放定律）描述了模型性能与参数规模、数据量、计算资源之间的规律性关联，即通过按比例扩大模型参数、数据量和计算资源，模型性能会以可预测的方式提升。

案例说明：
- 国际象棋任务：
  - “将死” 评估（复杂任务）：模型需完成一系列合法移动最终 “将死”，评价指标严格（仅 “将死” 算赢）。随模型规模增大，表现缓慢上升，呈现涌现。
  - 合法移动评估（子任务）：模型在合法移动步骤中正确选择，效果随模型规模持续提升，无涌现现象。
- 假设推演：若任务 T 由 5 个子任务构成，每个子任务指标从 40% 提升到 60%，最终任务指标可能从 1.1% 跃升至 7.8%，宏观呈现涌现，而子任务实际平滑增长。

小结

当前关于 LLMs 涌现能力的主流猜想：

任务评价指标不够平滑，严格指标放大能力突变表象；
复杂任务由多个子任务构成，子任务符合 Scaling Law，复杂任务整体呈现涌现。

八、Scaling Law的理解

Scaling Law 的目标与定义

目标
- 在训练前通过计算量、数据集规模、模型规模等因素，预测模型最终能力，辅助优化模型对齐、安全和部署决策。
- 示例：通过图表展示 GPT-4 和较小模型在代码库数据集上的损失表现，虚线（幂律拟合）精准预测了 GPT-4 的最终损失，体现 Scaling Law 对模型性能的预测能力。
定义
- 利用计算量、数据集规模、模型规模，以简单函数（如线性、幂律关系）预测模型最终能力。
- 大语言模型训练中，需权衡计算成本（如 GPU 数量、训练时间）、数据集大小、模型参数量，通过三方平衡提升模型性能。

主流观点对比

OpenAI 的研究（2020 年）
- 核心观点：
  - 语言建模性能与计算量、数据集大小、模型规模呈幂律关系，任一因素受限都会影响性能。
  - 三要素影响程度：计算量＞参数＞>数据集大小。
  - 最佳训练策略：在固定计算预算下，训练参数量大的模型并提前停止训练（Early Stopping），大模型样本效率更高，能用更少数据和优化步骤达相同性能。
DeepMind 的研究（2022 年）
- 核心观点：
  - 模型大小和训练数据量应按相等比例扩展（如模型大小加倍，数据量也加倍）。(我比较认同。)
  - 给定计算预算，存在最优解：模型过小时，在较多数据上训练更大模型更好；模型过大时，在更多数据上训练较小模型更优。
  - 强调高质量数据集扩展的重要性，大模型需匹配高质量、大规模数据才能发挥优势。

小结

Scaling Law 定义：通过计算量、数据集、模型规模预测模型能力。
OpenAI 观点：三要素互相关联，计算量影响最大，性能与单要素呈幂律关系。
DeepMind 观点：模型和数据量应等比例扩展，注重计算预算下的最优平衡，强调数据质量。

九、LLM中的“幻觉”

幻觉问题定义

核心概念
当大语言模型生成的文本不遵循输入源信息（缺乏一致性，Faithfulness），或不符合客观事实（缺乏事实性，Factuality），即产生幻觉。例如，回答 “爱因斯坦的贡献” 时，若模型称 “发现万有引力”，既违背输入问题的指向（一致性），也不符合事实（事实性），属于典型幻觉。
关键维度解析
- Faithfulness（一致性）：
  - Intrinsic Hallucination（信息冲突）：生成内容与输入信息直接冲突。如用户输入 “手机发布会介绍新摄像头技术”，模型却称 “未提及摄像头”，即为信息冲突。
  - Extrinsic Hallucination（无中生有）：输出包含输入中没有的虚构信息。如用户问 “推荐旅游城市”，模型回复 “北京有魔法城堡景点”，“魔法城堡” 是无中生有的幻觉。
- Factuality（事实性）：内容与世界知识不符。如模型称 “地球是宇宙中心”，明显违背科学事实，属于事实性幻觉。
传统任务与 LLMs 幻觉差异
传统任务（如特定领域文本生成）的幻觉多集中于 Faithfulness，因任务范围固定；而 LLMs 因开放域对话特性，需处理任意世界知识，Factuality 问题更突出。如回答 “现任法国总统是谁” 时答错，是 LLMs 特有的 Factuality 幻觉。

幻觉产生原因

数据层面
- 训练数据可信度低：
  大模型数据多通过众包、爬虫收集，难完全筛选。如包含网络谣言、错误百科内容，模型学习后会记忆错误知识。例如训练数据中 “闰年计算规则” 错误，模型生成相关内容时会传播错误。
- 数据重复与偏差：
  重复数据使模型对错误信息过度强化。如某错误知识点高频出现，模型会形成 “知识记忆偏差”，生成时自然出现幻觉。
模型层面
- 解码算法缺陷：
  top-p 采样为追求多样性，可能选中低概率错误词。如生成 “天空是绿色”，虽语法正确，但违背事实。
- 训练与推理数据差异：
  训练时模型基于真实标注学习，每一步输入真实前文；但推理时仅依赖自身生成内容，无真实数据约束，错误随生成长度累积。如长文本故事生成，开头正确，后续因无引导逐渐出现幻觉。

幻觉评估方法

基于参考的评估（Reference-based）
- 评估逻辑：以参考文本（如标准答案、原始数据源）对比生成内容。
- 常用指标：
  - ROUGE：用于摘要任务，计算短语重叠率。如标准摘要含 “技术创新”，生成摘要包含即算匹配。
  - BLEU：适用于机器翻译，衡量词序匹配程度。
- Knowledge F1 步骤：
  1. 知识检索：从知识库提取模型生成可参考的知识。
  2. 知识匹配：对比生成内容与检索知识，标记一致部分。
  3. 计算 F1：精确率（生成内容中正确信息比例）与召回率（知识中被正确生成的比例）的调和均值。
  - 优势：不依赖单一答案，适合多样化任务，高 F1 分表示幻觉少。
无参考评估（Reference-Free）
- 基于信息抽取（IE）：
  - 方法：将生成内容转为结构化三元组（如 “<主体 - 谓词 - 客体>”），用验证模型检查真实性。例如，生成 “苹果公司发布新产品”，转为 “< 苹果公司，发布，新产品 >”，再验证是否符合事实。
  - 缺点：IE 模型可能抽错信息，且复杂内容难用三元组表示。
- 基于问答（QA）：
  - 流程：用问题生成模型基于生成内容生成问题，再用问答模型回答，对比答案评估真实性。如生成 “巴黎是法国首都”，生成问题 “巴黎是哪个国家的首都？”，问答模型若答 “法国” 则正确，反之则可能有幻觉。
  - 局限：依赖 IE 生成问题，若 IE 出错则影响结果，且难覆盖所有知识。
- 基于自然语言推理（NLI）：
  - 原理：通过 NLI 模型判断生成内容与源信息是否存在 “蕴含” 关系。如源信息 “爱因斯坦提出相对论”，生成 “相对论由爱因斯坦发现”，NLI 模型判断是否蕴含。
  - 不足：NLI 模型事实核查能力有限，且 “幻觉” 与 “不蕴含” 不等价，可能误判。
- 事实性分类指标：
  - 操作：人工标注含幻觉与真实数据的数据集，训练分类模型（如 BERT 分类器）判断新生成内容是否符合事实。
  - 问题：依赖大量标注，成本高，且复杂幻觉检测效果有限。
- 人工评估：
  - 优势：最准确，能识别复杂幻觉，尤其适合多样化开放域内容。
  - 缺点：耗时耗力，成本极高，难以大规模应用。

幻觉缓解策略

数据层面优化
- 人工标注：
  - 训练数据：针对特定任务（如医疗问答）标注高质量数据，如医疗领域标注医生审核的问答对。
  - 评测数据：构建细粒度幻觉评估基准集，包含各种幻觉类型，分析模型幻觉模式。
- 自动筛选：
  - 剔除不良数据：用规则或模型识别并删除含虚假信息的样本，如通过关键词过滤。
  - 加权可靠数据：预训练时对权威数据（如维基百科）赋予更高权重，增强模型对正确知识的依赖。
模型层面改进
- 结构优化：
  - 编码更多信息：引入图神经网络（GNN），捕捉实体关系，如处理 “城市 - 国家 - 地标” 关系。
  - 减少生成随机性：调整解码参数，降低采样随机性，优先选择高概率正确词。
  - 增强检索：集成外部检索系统（如 LLaMA-index），生成时检索权威知识，如回答历史问题时先检索资料。
- 训练方式改进：
  - 可控文本生成：在训练目标中加入 “幻觉惩罚”，引导可靠生成。
  - 提前规划内容框架：采用 “草图到内容” 策略，先生成大纲再填充细节，如写文章先列主题句。
  - 强化学习：将 “减少幻觉” 设为奖励信号，优化生成策略。
  - 多任务学习：同时训练事实判断任务，提升模型对幻觉的识别能力。
  - 后处理优化：训练小型模型检测并修正幻觉，如识别错误事实后替换为正确内容。

案例方法深入（《A Stitch in Time Saves Nine》）

在这里插入图片描述
-文章《A Stitch in Time Saves Nine》提出：通过 logit 输出的概率分布检测低置信度生成内容，结合外部知识验证，主动修复幻觉，并阻止其在后续生成中传播。

核心发现：
- 幻觉具传播性，前文幻觉会导致后续更严重错误。如第一句 “作家 A 写了《错误书名》”，后续可能围绕错误展开更多描述。
- logit 输出的概率分布可作幻觉信号：计算生成词的 “概率得分”，得分低表示模型不自信，此时验证内容可检测幻觉。
解决流程：
1. 检测阶段：分析生成内容的重要概念，计算模型对概念的不确定性。如生成 “某药疗效” 内容，检索医学知识验证。
2. 缓解阶段：用检索到的正确知识修复幻觉句子，如将错误药名改为正确名称。
3. 迭代生成：把修复后的句子加入输入继续生成，阻止幻觉传播，通过循环减少当前幻觉并防止新幻觉产生。

查看全文

http://www.kler.cn/a/584389.html