当前位置: 首页 > article >正文

(2025|Meta,LLM,token 压缩/挑选,离散潜在标记,VQ-VAE)混合潜在标记和文本标记以改进语言模型推理

Token Assorted: Mixing Latent and Text Tokens for Improved Language Model Reasoning

目录

1. 引言

2. 相关研究

2.1 Chain-of-Thought 推理

2.2 LLM 推理中的潜在空间

3. 方法

3.1 Token Assorted 方法

3.2 使用离散潜在标记进行推理

4. 实验

4.1 评测任务

4.2 主要实验结果

5. 未来研究方向


1. 引言

大规模语言模型(LLMs)在推理和规划任务中的表现已显著提升,尤其是在 链式思维(Chain-of-Thought, CoT)方法的辅助下。然而,现有的 CoT 方法依赖于大量文本标记(Text Tokens),这些标记虽然增强了模型的逻辑推理能力,但也导致了以下问题:

  • 输入过长,计算开销大:大量的文本标记主要用于维持语言连贯性,而非核心推理信息。
  • 训练成本高:由于需要处理完整的推理轨迹(Reasoning Traces),导致计算资源消耗显著增加。
  • 泛化能力受限:传统方法难以高效适应新任务。

本文提出了一种新的混合表示方法——Token Assorted,即在推理过程中混合离散潜在标记(Latent Tokens)文本标记。通过 向量量化变分自动编码器(VQ-VAE)抽掉(abstract away)推理轨迹的一部分,从而在减少输入长度的同时保持模型的推理能力。

研究目标包括:

减少推理轨迹的长度,降低计算成本。

提升 LLMs 的推理能力,在逻辑推理和数学推理任务上取得更好的表现。

探索混合标记训练方法,让 LLMs 快速适应新的潜在标记。

2. 相关研究

2.1 Chain-of-Thought 推理

CoT 方法通过将复杂问题拆解成多个推理步骤,提高 LLMs 在数学问题、逻辑推理和规划任务中的表现。然而,该方法的主要问题在于输入长度过长,影响模型的计算效率。

2.2 LLM 推理中的潜在空间

近年来,研究者开始探索 LLMs 在 潜在空间(Latent Space)中的推理能力。例如:

  • 连续潜在空间推理:使用隐藏状态(hidden state)作为输入嵌入,使模型能够并行考虑多个推理路径
  • 插入暂停标记(Pause Tokens):在文本中插入“可学习暂停标记”,让模型在生成最终答案前进行额外计算。
  • 编码器-解码器结构的潜在标记:使用 Transformer 结构在嵌入空间进行推理,但在现实数据集上的表现尚未超越 CoT。

本文方法不同于以上使用连续潜在空间的工作,直接使用离散潜在标记,从而提高推理效率,同时保持可读性。 

3. 方法

3.1 Token Assorted 方法

Token Assorted 方法通过混合离散潜在标记(discrete latent token)文本标记来压缩推理轨迹。具体步骤如下:

1)使用 VQ-VAE 训练潜在标记

  • 通过 VQ-VAE推理步骤(思维链)转换为离散潜在标记 Z = (z_1, z_2, ..., z_t)。
  • 控制压缩率 r(即文本标记与潜在标记的比例),例如 r=16 代表每 16 个文本标记压缩为 1 个潜在标记。

2)替换部分文本标记:

推理轨迹(思维链)标记 为 C = (c_1, c_2, ..., c_t),我们用离散潜在标记 Z 替换其中前 m 个标记:

其中,P 代表问题提示(Prompt)标记,S 代表最终答案(Solution)标记,⊕ 代表拼接。

3.2 使用离散潜在标记进行推理

部分替换:替换 m 个标记,保留部分文本标记

从左到右替换:替换前 m 个标记。

随机混合不同替换比例(Randomized Mixing Strategy)

  • 以往的研究采用 多阶段课程学习(multistage curriculum training) 的方式,逐步增加 m 的值,直到达到预设的上限。然而,这种训练方法 计算复杂度高、效率低,需要精细的 超参数调优 来保证效果。
  • 本文采用了一种 简单的单阶段训练策略对每个样本随机设定 m 的值,而非逐步递增。这种方法不仅提高了训练效率,还提升了最终模型的性能

4. 实验

4.1 评测任务

合成数据集

  • Keys-Finding Maze(路径规划任务)
  • ProntoQA(逻辑推理任务)
  • ProsQA(复杂逻辑推理任务)

数学推理任务

  • 训练数据集:MetaMathQA, Dart-MATH
  • 测试数据集:
    • GSM8K(基础数学)
    • Math(高级数学)
    • OlympiadBench-Math(奥数)
    • Fresh-Gaokao-Math-2023(高考数学)

4.2 主要实验结果

Token Assorted 方法比 CoT在 Keys-Finding Maze 上 提升 19.8%,推理轨迹缩短 71%。

ProntoQA ProsQA 上分别提升 1.2% 18.7%

数学推理任务:大部分数据集上比表现更好。

标记数目: 在所有任务上使用比 CoT 更少的标记

表 4.4:我们的潜在标记随机替换策略明显优于其他选择

  • All-Replace:所有文本 CoT 标记都被潜在标记一次性替换
  • Curriculum-Replace:在训练过程中逐渐用潜在标记替换整个 CoT 子序列的文本标记
  • Poisson-Replace:以 0.5 的概率替换单个文本标记块  

5. 未来研究方向

进一步优化编码器(VQ-VAE)结构,提高潜在标记的表示能力。

在更大规模数据集(如 Codeforces 竞赛数据)上测试 Token Assorted 方法的适用性。

探索 Token Assorted 在多模态任务(如视觉推理)的应用。

 

论文地址:https://arxiv.org/abs/2502.03275

进 Q 学术交流群:922230617


http://www.kler.cn/a/536976.html

相关文章:

  • 判断您的Mac当前使用的是Zsh还是Bash:echo $SHELL、echo $0
  • Linux之安装docker
  • Windows 中学习Docker环境准备2、Docker Desktop中安装ubuntu
  • Fedora 的 2025 年展望:AI 集成与 HDR 支持打造强大 Linux 桌面体验
  • 算法日记12:SC40树状数组(单点修改)
  • 洛谷网站: P3029 [USACO11NOV] Cow Lineup S 题解
  • 详解正则表达式与案例
  • DOMParser解析TikTok页面中的图片元素
  • C# 中 Guid类 使用详解
  • Python3+Request+Pytest+Allure+Jenkins 接口自动化测试[手动写的和AI写的对比]
  • 3. 【.NET 8 实战--孢子记账--从单体到微服务--转向微服务】--什么是微服务--微服务的核心特性与设计理念
  • UE求职Demo开发日志#23 线性任务系统数据层实现
  • zephyr devicetree
  • Android 多环境(生产、测试、开发)多域名网络配置
  • 一次报警了解:direct path read、enq: KO - fast object checkpoint
  • 【C语言】文件操作详解 - 从打开到关闭
  • STM32的HAL库开发---高级定时器---输出比较模式实验
  • Java 多线程、线程同步、线程池
  • C# LiteDB 使用教程
  • Qt实现简易音乐播放器
  • 脚手架开发【实战教程】prompts + fs-extra
  • MySQL视图索引操作
  • 【Linux】Ubuntu Linux 系统 ——Android开发环境
  • linux进程通讯-信号处理介绍
  • [开源/教程]使用Ollama+ESP32实现本地对话助手(可接入deepseek等模型)
  • 基于微信平台的报刊订阅小程序的设计与实现ssm+论文源码调试讲解