当前位置：首页 > article >正文

（2025|Meta，LLM，token 压缩/挑选，离散潜在标记，VQ-VAE）混合潜在标记和文本标记以改进语言模型推理

article 2025/2/8 21:42:38

Token Assorted: Mixing Latent and Text Tokens for Improved Language Model Reasoning

1. 引言

2. 相关研究

2.1 Chain-of-Thought 推理

2.2 LLM 推理中的潜在空间

3. 方法

3.1 Token Assorted 方法

3.2 使用离散潜在标记进行推理

4. 实验

4.1 评测任务

4.2 主要实验结果

5. 未来研究方向

1. 引言

大规模语言模型（LLMs）在推理和规划任务中的表现已显著提升，尤其是在 链式思维（Chain-of-Thought, CoT）方法的辅助下。然而，现有的 CoT 方法依赖于大量文本标记（Text Tokens），这些标记虽然增强了模型的逻辑推理能力，但也导致了以下问题：

输入过长，计算开销大：大量的文本标记主要用于维持语言连贯性，而非核心推理信息。
训练成本高：由于需要处理完整的推理轨迹（Reasoning Traces），导致计算资源消耗显著增加。
泛化能力受限：传统方法难以高效适应新任务。

本文提出了一种新的混合表示方法——Token Assorted，即在推理过程中混合离散潜在标记（Latent Tokens）和文本标记。通过 向量量化变分自动编码器（VQ-VAE）抽掉（abstract away）推理轨迹的一部分，从而在减少输入长度的同时保持模型的推理能力。

研究目标包括：

减少推理轨迹的长度，降低计算成本。

提升 LLMs 的推理能力，在逻辑推理和数学推理任务上取得更好的表现。

探索混合标记训练方法，让 LLMs 快速适应新的潜在标记。

2. 相关研究

2.1 Chain-of-Thought 推理

CoT 方法通过将复杂问题拆解成多个推理步骤，提高 LLMs 在数学问题、逻辑推理和规划任务中的表现。然而，该方法的主要问题在于输入长度过长，影响模型的计算效率。

2.2 LLM 推理中的潜在空间

近年来，研究者开始探索 LLMs 在 潜在空间（Latent Space）中的推理能力。例如：

连续潜在空间推理：使用隐藏状态（hidden state）作为输入嵌入，使模型能够并行考虑多个推理路径
插入暂停标记（Pause Tokens）：在文本中插入“可学习暂停标记”，让模型在生成最终答案前进行额外计算。
编码器-解码器结构的潜在标记：使用 Transformer 结构在嵌入空间进行推理，但在现实数据集上的表现尚未超越 CoT。

本文方法不同于以上使用连续潜在空间的工作，直接使用离散潜在标记，从而提高推理效率，同时保持可读性。

3. 方法

3.1 Token Assorted 方法

Token Assorted 方法通过混合离散潜在标记（discrete latent token）和文本标记来压缩推理轨迹。具体步骤如下：

1）使用 VQ-VAE 训练潜在标记：

通过 VQ-VAE 将推理步骤（思维链）转换为离散潜在标记 Z = (z_1, z_2, ..., z_t)。
控制压缩率 r（即文本标记与潜在标记的比例），例如 r=16 代表每 16 个文本标记压缩为 1 个潜在标记。

2）替换部分文本标记：

设推理轨迹（思维链）标记 为 C = (c_1, c_2, ..., c_t)，我们用离散潜在标记 Z 替换其中前 m 个标记：

其中，P 代表问题提示（Prompt）标记，S 代表最终答案（Solution）标记，⊕ 代表拼接。

3.2 使用离散潜在标记进行推理

部分替换：替换 m 个标记，保留部分文本标记

从左到右替换：替换前 m 个标记。

随机混合不同替换比例（Randomized Mixing Strategy）：

以往的研究采用 多阶段课程学习（multistage curriculum training） 的方式，逐步增加 m 的值，直到达到预设的上限。然而，这种训练方法 计算复杂度高、效率低，需要精细的 超参数调优 来保证效果。
本文采用了一种 简单的单阶段训练策略，对每个样本随机设定 m 的值，而非逐步递增。这种方法不仅提高了训练效率，还提升了最终模型的性能。