当前位置: 首页 > article >正文

【MLLM】GRPO在多模态LLM的应用

note

  • VLM-R1: A stable and generalizable R1-style Large Vision-Language Model。域外数据集上性能比SFT要好
  • Open-R1-Video视频理解模型:为视频理解任务引入R1范式,开源训练代码和数据,用视频、查询和答案,使用GRPO训练,提升模型推理能力

文章目录

  • note
  • 一、VLM-R1: A stable and generalizable R1-style Large Vision-Language Model
  • 二、Open-R1-Video视频理解模型

一、VLM-R1: A stable and generalizable R1-style Large Vision-Language Model

VLM-R1: A stable and generalizable R1-style Large Vision-Language Model: https://github.com/om-ai-lab/VLM-R1 ,用GRPO强化学习提升视觉理解的大型视觉语言模型。用Qwen2.5-VL进行训练
结论:域外数据集上性能比SFT要好,可以关注其训练和评估流程。

在这里插入图片描述

二、Open-R1-Video视频理解模型

R1用在多模态,Open-R1-Video:为视频理解任务引入R1范式,开源训练代码和数据,用视频、查询和答案,使用GRPO训练,提升模型推理能力: https://github.com/Wang-Xiaodong1899/Open-R1-Video,在视频数据集 open-r1-video-4k(https://huggingface.co/datasets/Xiaodong/open-r1-video-4k)上训练了 Qwen2-VL-7B-Instruct,使用了4块A100(80G)GPU,训练过程中仅使用了视频、查询以及正确答案的标注(即正确答案的字母),仅采用了GRPO(纯粹的强化学习,没有使用带有标签的推理轨迹)来训练模型。

一个推理的栗子:
在这里插入图片描述

类似的项目还有:

  • https://github.com/EvolvingLMMs-Lab/open-r1-multimodal
  • https://kkgithub.com/TideDra/lmm-r1

http://www.kler.cn/a/559038.html

相关文章:

  • 学术论文翻译
  • Java【网络原理】(1)初识网络
  • 中间件专栏之redis篇——redis基本原理、概念及其相关命令介绍
  • 《Restormer:高效Transformer架构用于高分辨率图像恢复》学习笔记
  • Linux-Ansible命令
  • 多线程篇学习面试
  • 【应急响应工具教程】流量嗅探工具-Tcpdump
  • GB28181协议下的RTP传输
  • 《Head First设计模式》读书笔记 —— 命令模式
  • 如何在 SpringBoot 项目创建并使用 Redis 的详细介绍
  • 管道-过滤器、隐式调用、解释器架构风格对比
  • rpc和http的区别,为啥golang使用grpc 不使用http?
  • PAT 甲级 1091 Acute Stroke
  • 深度学习(5)-卷积神经网络
  • LangChain-基础(prompts、序列化、流式输出、自定义输出)
  • conda环境中运行“python --version“所得的版本与环境中的python版本不一致----deepseek并非全能
  • 怎么在Github上readme文件里面怎么插入图片?
  • rtconfig.cpython-313.pyc 在 .gitignore文件中写入 *.pyc 文件仍然没有被忽略?
  • Grok 3与GPT-4.5的“智能天花板”争夺战——谁才是大模型时代的算力之王?
  • Python常见面试题的详解16