强化学习能让小模型多恐怖?
不是标题党!
不是标题党!
不是标题党!
先说3遍
这个模型有多大呢?1.5B,相当于鼻涕嘎一般大小,和大模型可以说是毫无关系
先看看它和别的模型比较,我们不能只看eval datasets跑出来的数据,因为容易在训练集里混入测试集,用几个我一直用着很顺手的问题
第一个,我的经典问题:
“ 已知 $$ n \in N^* $$,求和: \[ S = \frac{3}{1 \times 2} \times \frac{1}{2} + \frac{4}{2 \times 3} \times \frac{1}{2^2} + \cdots + \frac{n+2}{n(n+1)} \times \frac{1}{2^n} = \underline{\hspace{1cm}}. \] ”
不要小看这题,GPT4o 20250129之前的版本是做不出来的
难点在 分式拆分、错位相消、指数项处理 这三部分。
需要灵活运用 部分分式分解 和 等比数列求和 的知识点。
如果对求和技巧不熟练,可能会卡在如何化简求和式的步骤上。
当然现如今基本国内的大模型很多都能答上来了(我估计这题大概率已经被收入进训练集里了),比如Kimi,豆包,这题属于测试LLM是否可用的一个门槛
那么谁作对(错)了呢?
1号选手 大家都觉得数理化比较厉害的Claude3.5 sonet
它根本做不出来,纯乱答
2号选手qwen32-coder
陷入到我刚才说的化简和式的战争中了,最后败了
3号选手 OpenAI latest
它能做出来,但是原来它根本做不出来,可见新GPT是被O给灌注的
老GPT是根本不行的
4号选手 DS 的官方 qwen-R1 distill 32B
它是一直有这个实力的
如果我把 模型缩小为1.5B的化呢?
5号选手 DS 的官方 qwen-R1 distill 1.5B
它肯定做不出来,本来也没指着它能做出来
但是!!!
如果我们对这个毫不起眼的1.5B模型,再做一次强化学习?
R1论文的Deppseek官方的模型所谓的蒸馏,就是把80K的DS R1生成的高质量推理COT数据,SFT到qwen或者llama里面去,仅此而已,没有做RL强化学习
为什么不做?
因为R1论文说发现直接拿RL来激发小模型的推理能力比较难训练,不如直接灌COT数据来的直接
当时我就有一个疑问,既然灌注了高等级数据以后qwen能力都上升了,为什么这个时候不在基于这个Distill模型再RL呢?
但是Deepseek的人没做,我其实也懒得做,但是有人做了
所以热烈欢迎我们的
6号选手 agentica-org/DeepScaleR-1.5B-Preview
还是刚才的数学问题
这也是我测试过能答对的最小模型
那么它做了什么?
Data
Our training dataset consists of approximately 40,000 unique problem-answer pairs compiled from:
-
AIME problems (1984-2023)
-
AMC problems (prior to 2023)
-
Omni-MATH dataset
-
Still dataset
4万个数学相关的QA对
GRPO
强制1分或者0分,所以奖励稀疏且稠密(不冲突,第一个稀疏是相对连续奖励说的,稀疏证明容易有显性答案,第二个稠密是奖励集中区域便于区分好与不好)
rule based reward
逐步扩展上下文长度
在 推理任务 中扩展强化学习的一个关键挑战是 计算成本。采用 逐步扩展上下文 的方法,使模型在逐步提升能力的同时,优化计算和训练时间:
1.初始 8K 上下文(0-1040 训练步)
•Pass@1 提升:22.9% → 33%(AIME 2024)
•训练配置:
•8× A100-80GB GPUs
•批量大小(BS):128(提示)× 8(样本/提示)= 1024
2.扩展至 16K(1040-1520 训练步)
•Pass@1 提升:33% → 43%(AIME 2024)
•训练配置:
•32× A100-80GB GPUs
•批量大小(BS):128(提示)× 16(样本/提示)= 2048
3.进一步扩展至 24K(1520+ 训练步)
•Pass@1 提升:38% → 43%(AIME 2024)
•训练配置:
•32× A100-80GB GPUs
•批量大小(BS):128(提示)× 16(样本/提示)= 2048
•显著提升:仅用 <200 训练步 即取得显著优化。
分布提升context长度,这个在很多论文里也被证明是有效的方法
因为扩展了原始模型的长度,也就有了更深的COT的可能性,所以变强了
虽然评测数据不代表全部,但是也能看出来,确实变强了,而且能在distill的基础上,AIME24还能还提升百分之50左右,当然它提升的都是数学相关的能力
在看个极端的例子:
FF, 5E, 5C, 69, 00, 51, 5E, 53, 67, 55, 62, 00, 67, 59, 64, 38, 00, 64, 58, 55, 00, 53, 59, 5E, 57, 55, 00, 67, 5F, 62, 54, 00, 02, 5C, 5F, 02 据说其中暗藏了一条指令或信息。**请问如何解码并获取这串数据真正想表达的内容?**能否推断出最终的“答案”或“指令”是什么?
这个题是密码学,符号学,语言学,数学的一个综合比拼
目前能答对的只有Grok3
答案是"lol"
那么其他选手试一试
1号选手 o3-mini-high
白扯,上来就败了
2号选手 DS R1
思考过量了,超context了也没有结论
3号选手DS R1 distill qwen 32B
因为本地context大了点,所以它足足想了5分钟,然并卵
4号选手,我们的agentica-org/DeepScaleR-1.5B-Preview
虽然它没答对,但是它的思路是最接近正解的,有点可怕
为什么可怕呢,我给你看一下1.5b面对这个问题应该怎么做?
5号选手 DS 的官方 qwen-R1 distill 1.5B
这个才是一个1.5B应该有的正常表现,所以deepscale这个RL强化过的DS R1版本qwen让我有点看grok3的感觉,grok3发布这几天,我觉得并不是它测试集上有多好的成绩,而是它敢去尝试解黎曼猜想,这点挺可怕(其他家LLM经常就这题不做了)
如果模型去尝试去解决一个问题的时候,尤其是reasoning模型,证明它开始有了COT的template init,从这一点来说通过RL强化的 DS R1版本qwen
也就是DeepScaleR-1.5B-Preview 在给它强化的数学领域无疑是非常成功的。
那其他的领域呢?
比如文学之类的?
很显然,它什么都不是。。。。
这个情况也不例外,小模型本身学知识就难
如果大家看过scaling law也知道,不管按着deepmind 流派还是openai流派来讲
小模型在一定算力体系下(你给再多算力也不合适了)
dataset能学习的能力是无法和尺寸大的模型相比的,即使过度训练也是没什么收益
因为你pretrain里就没太学明白,所以指着把小模型强化成超级泛化的模型是不现实的
那它能干什么?
数学这个事其实就给了我们一个启发
其实DS 官方对qwen1.5B 进行SFT的数据,很多也是数学相关的(懂得都懂,因为按着他们的GRPO的方式,reward function 一个是accurate,一个是format,所以最合适能容易get奖励的就是数学题,也好训练)
但是大模型本身泛化能力就好,所以会有一定的aha或者叫涌现也好,叫什么都好吧,也就是跨领域知识的COT通用型泛化
但是小模型不行,它就灌了多了数学,所以你RL数学,它能在这个垂类起很大作用
我们可以换个角度,如果不考虑数学(当然数学好训),如果你的垂泪数据,能满足可以设计很好的reward function,它其实一样可以通过先sft在RL的形式,让1.5B级别的模型变成一个超级猛的领域模型的
所以又回到数据合成的领域了,如果一个公司拥有非常优质的数据,是完全有资格把AI垂直服务,build在端设备上的,所以我认为,小钢炮的思考,不应该是all in one的思路(比如说phi,我就觉得它纯纯有病)
绝对应该是垂类数据sft+RL而成的一个垂直领域reasoning 小钢炮会对业务更有意义
其实我在测试中还发现了一个reasoning模型的问题,过度思考,不过这期不讲怕跑题了,那么我们下次见