当前位置：首页 > article >正文

强化学习能让小模型多恐怖？

article 2025/2/24 21:14:47

不是标题党！

先说3遍

这个模型有多大呢？1.5B，相当于鼻涕嘎一般大小，和大模型可以说是毫无关系

先看看它和别的模型比较，我们不能只看eval datasets跑出来的数据，因为容易在训练集里混入测试集，用几个我一直用着很顺手的问题

第一个，我的经典问题：

“ 已知 $$ n \in N^* $$，求和： \[ S = \frac{3}{1 \times 2} \times \frac{1}{2} + \frac{4}{2 \times 3} \times \frac{1}{2^2} + \cdots + \frac{n+2}{n(n+1)} \times \frac{1}{2^n} = \underline{\hspace{1cm}}. \] ”

不要小看这题，GPT4o 20250129之前的版本是做不出来的

难点在分式拆分、错位相消、指数项处理这三部分。

需要灵活运用部分分式分解和等比数列求和的知识点。

如果对求和技巧不熟练，可能会卡在如何化简求和式的步骤上。

当然现如今基本国内的大模型很多都能答上来了（我估计这题大概率已经被收入进训练集里了），比如Kimi，豆包，这题属于测试LLM是否可用的一个门槛

那么谁作对（错）了呢？

1号选手大家都觉得数理化比较厉害的Claude3.5 sonet

它根本做不出来，纯乱答

2号选手qwen32-coder

陷入到我刚才说的化简和式的战争中了，最后败了

3号选手 OpenAI latest

它能做出来，但是原来它根本做不出来，可见新GPT是被O给灌注的

老GPT是根本不行的

4号选手 DS 的官方 qwen-R1 distill 32B

它是一直有这个实力的

如果我把模型缩小为1.5B的化呢？

5号选手 DS 的官方 qwen-R1 distill 1.5B

它肯定做不出来，本来也没指着它能做出来

但是！！！

如果我们对这个毫不起眼的1.5B模型，再做一次强化学习？

R1论文的Deppseek官方的模型所谓的蒸馏，就是把80K的DS R1生成的高质量推理COT数据，SFT到qwen或者llama里面去，仅此而已，没有做RL强化学习

为什么不做？

因为R1论文说发现直接拿RL来激发小模型的推理能力比较难训练，不如直接灌COT数据来的直接

当时我就有一个疑问，既然灌注了高等级数据以后qwen能力都上升了，为什么这个时候不在基于这个Distill模型再RL呢？

但是Deepseek的人没做，我其实也懒得做，但是有人做了

所以热烈欢迎我们的

6号选手 agentica-org/DeepScaleR-1.5B-Preview

还是刚才的数学问题

这也是我测试过能答对的最小模型

那么它做了什么？

Data

Our training dataset consists of approximately 40,000 unique problem-answer pairs compiled from:

AIME problems (1984-2023)
AMC problems (prior to 2023)
Omni-MATH dataset
Still dataset

4万个数学相关的QA对

GRPO

强制1分或者0分，所以奖励稀疏且稠密（不冲突，第一个稀疏是相对连续奖励说的，稀疏证明容易有显性答案，第二个稠密是奖励集中区域便于区分好与不好）

rule based reward

逐步扩展上下文长度

在 推理任务 中扩展强化学习的一个关键挑战是 计算成本。采用 逐步扩展上下文 的方法，使模型在逐步提升能力的同时，优化计算和训练时间：

1.初始 8K 上下文（0-1040 训练步）

•Pass@1 提升：22.9% → 33%（AIME 2024）

•训练配置：

•8× A100-80GB GPUs

•批量大小（BS）：128（提示）× 8（样本/提示）= 1024

2.扩展至 16K（1040-1520 训练步）

•Pass@1 提升：33% → 43%（AIME 2024）

•训练配置：

•32× A100-80GB GPUs

•批量大小（BS）：128（提示）× 16（样本/提示）= 2048

3.进一步扩展至 24K（1520+ 训练步）

•Pass@1 提升：38% → 43%（AIME 2024）

•训练配置：

•32× A100-80GB GPUs

•批量大小（BS）：128（提示）× 16（样本/提示）= 2048

•显著提升：仅用 <200 训练步 即取得显著优化。

分布提升context长度，这个在很多论文里也被证明是有效的方法

因为扩展了原始模型的长度，也就有了更深的COT的可能性，所以变强了

虽然评测数据不代表全部，但是也能看出来，确实变强了，而且能在distill的基础上，AIME24还能还提升百分之50左右，当然它提升的都是数学相关的能力

在看个极端的例子：

FF, 5E, 5C, 69, 00, 51, 5E, 53, 67, 55, 62, 00, 67, 59, 64, 38, 00, 64, 58, 55, 00, 53, 59, 5E, 57, 55, 00, 67, 5F, 62, 54, 00, 02, 5C, 5F, 02 据说其中暗藏了一条指令或信息。**请问如何解码并获取这串数据真正想表达的内容？**能否推断出最终的“答案”或“指令”是什么？

这个题是密码学，符号学，语言学，数学的一个综合比拼

目前能答对的只有Grok3