当前位置：首页 > article >正文

[AI.认知]李飞飞团队“50美元”训练出s1-32B，以及研究成果《s1：Simple test- time scaling》，背后的本质？

article 2025/2/18 16:25:40

论文《s1: Simple test-time scaling》

（说明：本文主要摘自DeepSeek-R1-联网搜索的回复）

1. 研究背景

李飞飞团队的目标，是探究“如何以极低的成本训练出一款高效率的人工智能推理模型”。他们选择了基于阿里云通义千问（Qwen2.5-32B-Instruct）开源模型进行监督微调（Supervised Fine-Tuning, SFT），而不是从零开始训练全新的模型。这种方式大幅降低了计算成本。

2. 核心技术

(1) 测试时拓展（Test-Time Scaling）

研究的核心创新在于一种称为**“测试时拓展”**的技术框架，旨在通过动态调节模型的推理过程来提升性能。具体表现为：

预算强制（Budget Forcing）：在推理过程中设置最大推理长度阈值，当超出阈值时强制终止推理并输出结果；反之，若需要更高精度的回答，则延迟终止信号，鼓励模型进行更多的推理迭代。
多轮推理优化：通过多次推理迭代（如对一个问题反复推敲），逐步优化推理结果，最终生成更准确的答案。

(2) 高效微调策略

团队采用了轻量化微调策略，仅基于1000个高质量样本来完成模型优化。这些样本来源于谷歌 Gemini 2.0 的推理轨迹，并经过严格的筛选和验证。

(3) 数据集构建

团队构建了一个小型但高度精选的数据集——s1K，其中包含来自16个不同领域的59029道高质量问题（如数学竞赛题、博士级别科学问题等）。最终筛选出1000个具有代表性的样本用于微调。

杠杆维度	具体实现	成本效益比
基座模型选择	采用通义千问Qwen2.5-32B-Instruct（已具备强推理能力）	节省95%+
数据工程	构建s1K数据集（1000个跨领域问题+Gemini 2.0生成的推理轨迹）	提升3倍
训练策略	仅进行监督微调（SFT），避免从头训练	节省99.9%

研究团队通过三重杠杆实现了低成本的性能跃迁

特别值得注意的是：当基座模型更换为其他架构时，相同训练策略无法复现性能提升，印证了Qwen模型在长程推理任务中的独特优势。

3. 成果与争议

(1) 成果

成本极低：仅需不到50美元的云计算费用（基于16块NVIDIA H100 GPU，26分钟完成微调）。
性能优异：在特定测试集（如 AIME2024 和 MATH500）上，s1-32B 的表现优于 OpenAI 的 o1-preview 模型（高出27%），同时也显著优于 Qwen 基座模型。
样本效率高：展现了在有限数据下的优秀泛化能力。

(2) 争议

“50美元”的真实性存疑：未包含基座模型（Qwen）的初始训练成本或其他间接费用。
性能天花板受限：未能超越 OpenAI 的 o1 正式版本和 DeepSeek-R1 等成熟模型。

1. **成本计算边界**：50美元仅包含16块H100 GPU的26分钟微调费用，未计入基座模型训练成本（预估超300万美元）
2. **性能评估范围**：在AIME2024测试集超越o1-preview 27%，但未达o1正式版水平，存在过拟合风险
3. **技术普适性**：目前验证仅限数学/编码领域，在需要常识推理的场景尚未验证

4. 研究本质

这项研究本质上是对现有大型语言模型的一种“再利用”和“优化”。其核心价值在于：

展示了如何通过简单的算法改进和数据增强，在已有强大基座模型的基础上，以极低的成本获得显著的性能提升。
推动了“普惠AI”的理念：即使不具备巨额研发投入的能力，也可以通过巧妙的技术手段开发出高性能模型。

5. 结论

李飞飞团队的研究不仅体现了技术层面的进步，也为 AI 行业带来了一场深刻的讨论：在模型训练成本逐渐下降的同时，如何平衡技术研发的经济性与长期发展的可持续性将成为下一个重要课题。

----------------

高质量数据集降低成本
|-李飞飞研究团队还从16个来源收集了59029道高质量题目，包括数学竞赛问题、博士级别的科学问题、奥林匹克竞赛问题等，并通过三个标准进行验证：难度、多样性和质量。通过过滤，研究团队最终得到了包含1000个样本的s1K数据集，数据集覆盖几何、数论、量子力学等50个领域，并且每个问题都配有从 Google Gemini 2.0Flash Thinking Experimental作为“教师模型”蒸馏而来的答案和推理轨迹。

查看全文

http://www.kler.cn/a/547211.html