当前位置：首页 > article >正文

s1：简单测试-时间规模化

article 2025/2/8 10:22:49

25年1月来自斯坦福、西雅图 UW、AI2 和 Contextual AI 的论文“s1: Simple test-time scaling”。

测试-时间规模化是一种很有前途的语言建模新方法，它使用额外的测试-时间计算来提高性能。最近，OpenAI 的 o1 模型展示这种能力，但并未公开分享其方法，导致许多复制工作。本文寻求最简单的方法来实现测试时间规模化和强大的推理性能。首先，根据通过消融验证的三个标准（难度、多样性和质量）整理一个包含 1,000 个问题和推理痕迹的小型数据集 s1K。其次，开发预算强制来控制测试-时间计算，通过强制终止模型的思考过程或在模型试图结束时对模型的生成多次附加“等待”来延长它。这可以让模型仔细检查其答案，通常可以修复不正确的推理步骤。在 s1K 上对 Qwen2.5-32B-Instruct 语言模型进行监督微调并为其配备预算强制后，得到的模型 s1-32B 在竞赛数学问题上的表现比 o1-preview 提高 27%（MATH 和 AIME24）。此外，使用预算强制规模化 s1-32B 可以在没有测试-时间干预的情况下推断出其性能：在 AIME24 上从 50% 提高到 57%。

如图所示 1s-32B 的测试-时间规模化：

请添加图片描述

过去几年中，语言模型 (LM) 的性能改进，很大程度上依赖于使用大规模自监督预训练来规模化训练-时计算 (Kaplan，2020；Hoffmann，2022)。这些强大模型的创建，为建立在它们之上的新规模化范式奠定了基础：测试-时规模化。这种方法的目的，是增加测试-时的计算以获得更好的结果。已经有很多工作探索这个想法 (Snell，2024；Welleck，2024)，OpenAI o1 (OpenAI，2024) 最近验证了该范式的可行性。o1 已展示出强大的推理性能，并通过规模化测试-时计算获得持续的收益。OpenAI 将他们的方法描述为使用大规模强化学习 (RL)，这意味着使用大量数据 (OpenAI，2024)。这导致各种尝试来复制他们的模型，这些尝试依赖于蒙特卡洛树搜索（Gao，2024b；Zhang ，2024a）、多智体方法（Qin，2024）和其他方法（Wang，2024a；Huang，2024b；2025）。在这些方法中，DeepSeek R1（DeepSeek-AI，2025）成功复制 o1 级性能，同时通过数百万个样本和多个训练阶段采用了强化学习。然而，尽管进行了大量的 o1 复制尝试，但没有一个公开复制出明确的测试-时间规模化行为。因此要问：什么是同时实现测试-时间规模化和强推理性能的最简单方法？

本文的方法试图回答这个问题，细节如下。

推理数据整理以创建 s1K

初始收集 59K 个样本

按照三个指导原则从 16 个不同的来源收集初始的 59,029 个问题。质量：数据集应该是高质量的；总是检查样本并忽略格式不佳的数据集；难度：数据集应该具有挑战性并且需要大量的推理工作；多样性：数据集应该来自不同的领域以涵盖不同的推理任务。收集两类数据集：

现有数据集的整理。最大的来源是 NuminaMATH（LI，2024），其中包含来自在线网站的 30,660 个数学问题。还包括历史 AIME 问题（1983-2021）。为了增强多样性，添加 OlympicArena (Huang，2024a)，其中包含来自各种奥林匹克竞赛的 4,250 个问题，涵盖天文学、生物学、化学、计算机科学、地理、数学和物理学。OmniMath (Gao，2024a) 增加 4,238 道竞赛级数学问题。还包括来自 AGIEval (Zhong，2023) 的 2,385 个问题，其中包含来自 SAT 和 LSAT 等标准化测试的问题，涵盖英语、法律和逻辑。

定量推理中的新数据集。为了补充这些现有数据集，创建两个原始数据集。 s1-prob 包含 182 个来自斯坦福大学统计系博士资格考试（https://statistics. stanford.edu）概率部分的题目，并附有涵盖困难证明的手写解决方案。概率资格考试每年举行一次，需要专业级的数学问题解决能力。s1-teasers 包含 23 个具有挑战性的脑筋急转弯，常用于量化交易职位的面试问题。每个样本都包含一个来自 PuzzledQuant（https://www.puzzledquant.com/）的问题和解决方案。本文只采用难度级别最高（“困难”）的示例。

对于每个问题，用 Google Gemini Flash Thinking API（Google，2024）生成推理轨迹和解决方案，提取其推理轨迹和响应。这产生 59K 个问题三元组、生成的推理轨迹和生成的解决方案。用 8-gram 对所有针对评估问题（MATH500、GPQA Diamond、AIME24）的样本进行净化，并对数据进行重复数据删除。

1K 个样本的最终选择

可以直接在 59K 个问题池上进行训练，但目标是找到资源最少、方法最简单的方法。因此，经过三个阶段的筛选，根据三个指导数据原则（质量、难度和多样性）得出 1,000 个样本的最小集合。

质量。首先删除遇到任何 API 错误的问题，将数据集减少到 54,116 个样本。接下来，检查示例是否包含任何具有格式问题的字符串模式（例如 ASCII 艺术图、不存在的图像引用或不一致的问题编号），这样过滤掉低质量示例，从而将数据集减少到 51,581 个示例。在这个池中，从认为高质量且不需要进一步筛选的数据集中确定 384 个样本作为最终的 1,000 个样本。

难度。对于难度，使用两个指标：模型性能和推理跟踪长度。针对每个问题评估两个模型：Qwen2.5-7B-Instruct 和 Qwen2.5-32B-Instruct（Qwen，2024），并使用 Claude 3.5 Sonnet 评估正确性，将每次尝试与参考解决方案进行比较。用 Qwen2.5 token化器测量每个推理轨迹的token长度以指示问题难度。这依赖于以下假设：更困难的问题需要更多的思考tokens。根据评分，删除 Qwen2.5-7B-Instruct 或 Qwen2.5-32B-Instruct 可以正确解决因此可能太简单的问题。通过使用两个模型，降低由于其中一个模型在简单问题上出现罕见错误而导致简单样本通过筛选的可能性。这使样本总数降至 24,496，为下一轮基于多样性的子抽样奠定基础。虽然使用这两个模型进行过滤可能针对设置进行了优化，因为还将使用 Qwen2.5-32B-Instruct 作为模型进行微调，但基于模型过滤的思想可以推广到其他设置。

多样性。为了量化多样性，使用基于美国数学学会（AMS）的数学学科分类 (MSC) 系统（例如几何、动态系统、实分析等）， Claude 3.5 Sonnet 将每个问题分类到特定领域。分类法侧重于数学主题，但也包括生物学、物理学和经济学等其他科学。为了从 24,496 个问题中选择最终示例，首先随机均匀地选择一个领域。然后，根据有利于较长推理轨迹的分布从该领域中抽取一个问题，正如难度所激励的那样。重复此过程，直到有 1,000 个样本。

这个三阶段过程产生了一个涵盖 50 个不同领域的数据集 s1K，如表所示。将展示结合使用这三个标准的重要性，因为仅依靠孤立的质量、多样性或难度会导致更糟糕的数据集。

请添加图片描述

如图所示：s1-32B 是一个开放且样本效率高的推理模型。实验评估 s1-32B、Qwen 和 Gemini。其他结果来自各自的报告（Qwen，2024；Team，2024b；OpenAI，2024；DeepSeek-AI，2025；Labs，2025；Team，2025）。# ex. = 用于推理微调的示例数量；BF = 预算强制。

请添加图片描述

测试-时间规模化

方法

将测试-时间规模化方法分为： 1) 顺序方法，其中后续计算依赖于先前计算（例如，长推理跟踪），和 2) 并行方法，其中计算独立运行（例如，多数表决）（Snell，2024；Brown，2024）。本文专注于顺序规模化，因为直觉上它应该规模化得更好，因为后续计算可以建立在中间结果的基础上，从而允许更深入的推理和迭代细化。本文提出新的顺序规模化方法和它们基准测试的方法。

预算强制。提出一种简单的解码-时间干预，通过在测试-时强制最大和/或最小数量的思考 token。具体来说，简单地附加思考结束 token 分隔符和“Final Answer：”来强制最大token数，以提前退出思考阶段并使模型提供其当前最佳答案。为了强制一个 token 最小值，需要抑制思考结束 token 分隔符的生成，并可选择将字符串“Wait”附加到模型的当前推理轨迹，以鼓励模型反思其当前生成。如图包含一个例子，说明这种简单的方法如何引导模型得出更好的答案。

请添加图片描述

基线。用以下方法对预算强制进行基准测试：（I）条件长度控制方法，它依赖于在提示中告诉模型它应该生成多长时间。根据粒度将它们分组为（a）token-条件控制：在提示中指定思考 token 的上限；（b）步骤条件控制：指定思考步骤的上限，其中每个步骤大约为 100 个 tokens；（c）类-条件控制：编写两个通用提示，告诉模型思考一小段时间或很长一段时间。 (II) 拒绝采样，即采样直到一代符合预定的计算预算。该预言捕获以长度为条件的后验响应。

指标

建立一组期望值作为评估指标，以衡量跨方法的测试-时间规模化。重要的是，不仅关心方法可以达到的准确性，还关心其可控性和测试-时间规模化斜率。对于考虑的每种方法，在固定基准（例如 AIME24）上运行一组评估 𝑎得到变化的测试-时间计算。这会产生一个分段线性函数 𝑓，其中计算量为 x 轴，以思维 token 为单位测量，准确度为 y 轴。测量三个指标：控制，规模化和性能。

由于生成的 token 对应于测试-时间计算开销量，因此该指标衡量一种方法允许控制测试-时间计算的程度。规模化是分段线性函数的平均斜率。对于有用的方法，它必须为正，并且越大越好。性能只是该方法在基准测试中实现的最大性能。一个具有单调递增规模化的方法，在极限范围内的任何基准测试中，均可实现 100% 的性能。但是，由于控制或上下文窗口的限制，该方法最终会趋于平稳或进一步规模化失败。

样本高效推理

模型。目前，许多研究人员正在同时努力构建能够复制 o1 性能的模型（OpenAI，2024 年）。例如，DeepSeek-r1 和 k1.5（DeepSeek-AI，2025；Team，2025）是使用强化学习方法构建的，而其他一些模型则依赖于使用数万个提炼示例的 SFT（Team，2025；Xu，2025；Labs，2025）。仅对 1,000 个示例进行 SFT 就足以构建与 o1-preview 相匹配的竞争性推理模型，并生成位于帕累托前沿的模型（如图所示：s1K 是一个包含 1,000 个高质量、多样化且具有推理痕迹的难题的数据集；s1-32B 是一个在 s1K 上微调的 32B 参数模型，处于样本效率前沿）。此外，引入预算强制，结合推理模型，首次再现 OpenAI 的测试-时间规模化曲线（OpenAI，2024）。为什么仅对 1,000 个样本进行监督微调就能带来如此大的性能提升？假设模型在预训练期间已经接触大量的推理数据，这些数据涵盖了数万亿个tokens。因此，模型已经具备推理能力。样本高效微调阶段只是激活了它，在测试时通过预算强制进一步规模化。这类似于 LIMA（Zhou，2023）中提出的“肤浅对齐假设”，1,000 个示例足以对齐模型以符合用户偏好。

请添加图片描述

基准和方法。为了评估和突破这些模型的极限，越来越具有挑战性的基准被引入，例如奥林匹克级别的科学竞赛（He，2024；Jain，2024；Zhong，2023）和其他竞赛（Srivastava，2023；Glazer，2024；Su，2024；Kim，2024；Phan，2025）。为了提高模型在推理相关任务上的性能，研究人员采取几种策略：先前的研究探索在与数学和科学相关的专业语料库上继续训练语言模型（Azerbayev，2023；Yang，2024），有时甚至是合成生成的数据（Yu，2024）。其他人已经开发出专门针对推理性能的训练方法（Zelikman，2022；2024；Luo，2025；Yuan，2025；Wu，2024a）。另一项重要的工作重点，是基于提示的方法来引出和提高推理能力，包括诸如思维链提示之类的方法（Wei，2023；Yao，2023a；b；Bi，2023；Fu，2023；Zhang，2024b；Xiang，2025；Hu，2024）。这些共同努力旨在提高语言模型的推理能力，使其能够有效地处理更复杂和抽象的任务。

测试-时间规模化

有两种规模化测试-时间计算的方法：并行和顺序。前者依赖于并行生成的多个解决方案尝试，并通过特定标准选择最佳结果。这些标准包括选择最常见的响应以进行多数投票或基于外部奖励的最佳响应以进行 N-中-最佳（Brown，2024；Irvine，2023；Snell，2024）。与重复采样不同，以前的顺序规模化方法允许模型根据先前的尝试顺序生成解决方案尝试，从而使其能够根据先前的结果改进每次尝试（Snell，2024；Hou，2025；Lee，2025）。基于树的搜索方法 (Gandhi et al., 2024; Wu et al., 2024b) 提供顺序和并行规模化之间的混合方法，例如蒙特卡洛树搜索 (MCTS) (Liu et al., 2024; Zhang et al., 2023; Zhou et al., 2024; Choi et al., 2023) 和有引导的波束搜索 (Xie et al., 2023)。REBASE (Wu et al., 2024b) 采用过程奖励模型（PRM）来平衡树搜索过程中的利用和修剪。经验表明，REBASE 的表现优于基于采样的方法和 MCTS (Wu et al., 2024b)。奖励模型 (Lightman et al., 2023; Wang et al., 2024b;c) 在这些方法中起着关键作用。它们有两种变型：结果奖励模型（ORM）和过程奖励模型。结果奖励模型（Xin，2024；Ankner，2024）为完整的解决方案分配分数，在 Best-of-N 选择中特别有用，而过程奖励模型（Lightman，2023；Wang，2024b；Wu，2024b）评估单个推理步骤，并可有效指导基于树的搜索方法。

进一步规模化测试-时间的限制。已经证明，预算强制允许测试-时间计算的外推，例如，将 AIME24 性能从 50% 提高到 57%。然而，在进一步规模化时它有两个关键限制：它最终会变平（如图所示：(a) 预算强制显示出明显的规模化趋势，并在一定程度上具有外推性；对于最右边的三个点，阻止模型停止思考 2/4/6 次，每次都将“Wait”附加到其当前推理轨迹；(b)对于 Qwen2.5-32B-Instruct，对温度为 1 的每个样本进行 64 次评估，并在其中 2、4、8、16、32 和 64 个样本中进行多数投票时可视化表现），并且语言模型的上下文窗口会限制它。尽管存在这些限制，本文工作仍表明测试-时间可以在很宽的精度范围内规模化，部分原因是降低测试-时间计算的行为是可预测的，并且不会受到这些限制的影响。

请添加图片描述

继续进行测试-时间规模化，需要能够进一步外推测试-时间计算的方法。如何获得这样的外推？预算强制可能会有所改进，例如转动不同的字符串，而不仅仅是“等待”，或者将其与频率惩罚或更高的温度相结合以避免重复循环。未来工作的一个令人兴奋的方向，也是研究预算强制应用于强化学习（RL）训练的推理模型是否会产生更好的推断；或者 RL 是否允许超越预算强制的新测试-时间规模化方法。

并行规模化作为解决方案。并行规模化为顺序规模化的极限提供一种解决方案，因此用两种方法增强顺序规模化模型：（I）多数投票：生成𝑘 个解决方案后，最终解决方案是生成中最多的解决方案； (II) 通过 REBASE 进行树搜索：用 REBASE 过程奖励模型，该模型从 LLaMA-34B 初始化，并在合成过程奖励建模数据集 (Wu et al., 2024b) 上进一步微调。然后，通过多数投票汇总 REBASE 生成的解决方案。如图所示，使用 REBASE 增强模型比多数投票甚至在这种情况下的顺序规模化效果更好。但是，REBASE 要求奖励模型在每一步都进行额外的前向传递，这会增加一些计算开销。对于顺序规模化，当提示使用最多 512 个步骤时，对于 30 个评估问题中的 12 个，模型生成的响应超出上下文窗口，导致性能大幅下降。总体而言，这些并行规模化方法是顺序规模化的补充，因此它们为进一步规模化测试-时间计算提供了途径；超越固定的上下文窗口。

请添加图片描述