当前位置: 首页 > article >正文

强化学习能让小模型多恐怖?

不是标题党!

不是标题党!

不是标题党!

先说3遍

这个模型有多大呢?1.5B,相当于鼻涕嘎一般大小,和大模型可以说是毫无关系

Image

先看看它和别的模型比较,我们不能只看eval datasets跑出来的数据,因为容易在训练集里混入测试集,用几个我一直用着很顺手的问题

第一个,我的经典问题:

“ 已知 $$ n \in N^* $$,求和: \[ S = \frac{3}{1 \times 2} \times \frac{1}{2} + \frac{4}{2 \times 3} \times \frac{1}{2^2} + \cdots + \frac{n+2}{n(n+1)} \times \frac{1}{2^n} = \underline{\hspace{1cm}}. \] ”

Image

不要小看这题,GPT4o 20250129之前的版本是做不出来的

难点在 分式拆分、错位相消、指数项处理 这三部分。

需要灵活运用 部分分式分解 和 等比数列求和 的知识点。

如果对求和技巧不熟练,可能会卡在如何化简求和式的步骤上。

当然现如今基本国内的大模型很多都能答上来了(我估计这题大概率已经被收入进训练集里了),比如Kimi,豆包,这题属于测试LLM是否可用的一个门槛

那么谁作对(错)了呢?

1号选手 大家都觉得数理化比较厉害的Claude3.5 sonet

Image

它根本做不出来,纯乱答

2号选手qwen32-coder

Image

陷入到我刚才说的化简和式的战争中了,最后败了

3号选手 OpenAI latest

Image

它能做出来,但是原来它根本做不出来,可见新GPT是被O给灌注的

老GPT是根本不行的

Image

4号选手 DS 的官方 qwen-R1 distill 32B

Image

它是一直有这个实力的

如果我把 模型缩小为1.5B的化呢?

5号选手 DS 的官方 qwen-R1 distill 1.5B

Image

它肯定做不出来,本来也没指着它能做出来

但是!!!

如果我们对这个毫不起眼的1.5B模型,再做一次强化学习?

R1论文的Deppseek官方的模型所谓的蒸馏,就是把80K的DS R1生成的高质量推理COT数据,SFT到qwen或者llama里面去,仅此而已,没有做RL强化学习

为什么不做?

因为R1论文说发现直接拿RL来激发小模型的推理能力比较难训练,不如直接灌COT数据来的直接

Image

Image

当时我就有一个疑问,既然灌注了高等级数据以后qwen能力都上升了,为什么这个时候不在基于这个Distill模型再RL呢?

但是Deepseek的人没做,我其实也懒得做,但是有人做了

所以热烈欢迎我们的

6号选手 agentica-org/DeepScaleR-1.5B-Preview

还是刚才的数学问题

Image

这也是我测试过能答对的最小模型

那么它做了什么?

Data

Our training dataset consists of approximately 40,000 unique problem-answer pairs compiled from:

  • AIME problems (1984-2023)

  • AMC problems (prior to 2023)

  • Omni-MATH dataset

  • Still dataset

4万个数学相关的QA对

GRPO

强制1分或者0分,所以奖励稀疏且稠密(不冲突,第一个稀疏是相对连续奖励说的,稀疏证明容易有显性答案,第二个稠密是奖励集中区域便于区分好与不好)

rule based reward

逐步扩展上下文长度

在 推理任务 中扩展强化学习的一个关键挑战是 计算成本。采用 逐步扩展上下文 的方法,使模型在逐步提升能力的同时,优化计算和训练时间:

1.初始 8K 上下文(0-1040 训练步)

Pass@1 提升:22.9% → 33%(AIME 2024)

•训练配置:

8× A100-80GB GPUs

批量大小(BS):128(提示)× 8(样本/提示)= 1024

2.扩展至 16K(1040-1520 训练步)

Pass@1 提升:33% → 43%(AIME 2024)

•训练配置:

32× A100-80GB GPUs

批量大小(BS):128(提示)× 16(样本/提示)= 2048

3.进一步扩展至 24K(1520+ 训练步)

Pass@1 提升:38% → 43%(AIME 2024)

•训练配置:

32× A100-80GB GPUs

批量大小(BS):128(提示)× 16(样本/提示)= 2048

显著提升:仅用 <200 训练步 即取得显著优化。

分布提升context长度,这个在很多论文里也被证明是有效的方法

因为扩展了原始模型的长度,也就有了更深的COT的可能性,所以变强了

Image

虽然评测数据不代表全部,但是也能看出来,确实变强了,而且能在distill的基础上,AIME24还能还提升百分之50左右,当然它提升的都是数学相关的能力

在看个极端的例子:

FF, 5E, 5C, 69, 00, 51, 5E, 53, 67, 55, 62, 00, 67, 59, 64, 38, 00, 64, 58, 55, 00, 53, 59, 5E, 57, 55, 00, 67, 5F, 62, 54, 00, 02, 5C, 5F, 02 据说其中暗藏了一条指令或信息。**请问如何解码并获取这串数据真正想表达的内容?**能否推断出最终的“答案”或“指令”是什么?

这个题是密码学,符号学,语言学,数学的一个综合比拼

目前能答对的只有Grok3

Image

答案是"lol"

那么其他选手试一试

1号选手 o3-mini-high

Image

白扯,上来就败了

2号选手 DS R1

Image

思考过量了,超context了也没有结论

3号选手DS R1 distill qwen 32B

Image

因为本地context大了点,所以它足足想了5分钟,然并卵

4号选手,我们的agentica-org/DeepScaleR-1.5B-Preview

Image

Image

虽然它没答对,但是它的思路是最接近正解的,有点可怕

为什么可怕呢,我给你看一下1.5b面对这个问题应该怎么做?

5号选手 DS 的官方 qwen-R1 distill 1.5B

Image

这个才是一个1.5B应该有的正常表现,所以deepscale这个RL强化过的DS R1版本qwen让我有点看grok3的感觉,grok3发布这几天,我觉得并不是它测试集上有多好的成绩,而是它敢去尝试解黎曼猜想,这点挺可怕(其他家LLM经常就这题不做了)

如果模型去尝试去解决一个问题的时候,尤其是reasoning模型,证明它开始有了COT的template init,从这一点来说通过RL强化的 DS R1版本qwen

也就是DeepScaleR-1.5B-Preview 在给它强化的数学领域无疑是非常成功的。

那其他的领域呢?

比如文学之类的?

Image

很显然,它什么都不是。。。。

这个情况也不例外,小模型本身学知识就难

如果大家看过scaling law也知道,不管按着deepmind 流派还是openai流派来讲

小模型在一定算力体系下(你给再多算力也不合适了)

dataset能学习的能力是无法和尺寸大的模型相比的,即使过度训练也是没什么收益

因为你pretrain里就没太学明白,所以指着把小模型强化成超级泛化的模型是不现实的

那它能干什么?

数学这个事其实就给了我们一个启发

其实DS 官方对qwen1.5B 进行SFT的数据,很多也是数学相关的(懂得都懂,因为按着他们的GRPO的方式,reward function 一个是accurate,一个是format,所以最合适能容易get奖励的就是数学题,也好训练)

但是大模型本身泛化能力就好,所以会有一定的aha或者叫涌现也好,叫什么都好吧,也就是跨领域知识的COT通用型泛化

但是小模型不行,它就灌了多了数学,所以你RL数学,它能在这个垂类起很大作用

我们可以换个角度,如果不考虑数学(当然数学好训),如果你的垂泪数据,能满足可以设计很好的reward function,它其实一样可以通过先sft在RL的形式,让1.5B级别的模型变成一个超级猛的领域模型的

所以又回到数据合成的领域了,如果一个公司拥有非常优质的数据,是完全有资格把AI垂直服务,build在端设备上的,所以我认为,小钢炮的思考,不应该是all in one的思路(比如说phi,我就觉得它纯纯有病)

绝对应该是垂类数据sft+RL而成的一个垂直领域reasoning 小钢炮会对业务更有意义

其实我在测试中还发现了一个reasoning模型的问题,过度思考,不过这期不讲怕跑题了,那么我们下次见


http://www.kler.cn/a/553289.html

相关文章:

  • 【Go语言快速上手】第二部分:Go语言进阶之测试与性能优化
  • 大语言模型中one-hot编码和embedding之间的区别?
  • docker 安装 Rabbitmq 详解
  • linux使用
  • 【C语言】fwrite函数用法介绍
  • Kafka消息服务之Java工具类
  • 【组态PLC】基于博图V16和组态王六层双部电梯组态设计【含PLC组态源码 M008期】
  • 全新的Android UI框架Jetpack Compose
  • 深度学习在遥感影像分析中的应用:地物分类、目标识别、图像分割
  • Bigemap Pro如何设置经纬网出图网格设置
  • 玩机日记 10 群晖开启文件服务挂载到手机/电脑,测试传输性能
  • 用 Biome 替代 ESLint 和 Prettier
  • SpringBean生命周期的执行流程
  • Oracle 迁移到 PostgreSQL
  • Cloud之快照存储(Cloud Snapshot Storage)
  • 近地面无人机植被定量遥感与生理参数反演
  • Python基于机器学习的新闻文本分类系统(附源码,文档说明)
  • 迪威模型网:免费畅享 3D 打印盛宴,科技魅力与趣味创意并存
  • 【JavaEE进阶】MyBatis通过XML实现增删改查
  • 【从0做项目】Java搜索引擎(8) 停用词表 正则