【MLLM】GRPO在多模态LLM的应用
note
- VLM-R1: A stable and generalizable R1-style Large Vision-Language Model。域外数据集上性能比SFT要好
- Open-R1-Video视频理解模型:为视频理解任务引入R1范式,开源训练代码和数据,用视频、查询和答案,使用GRPO训练,提升模型推理能力
文章目录
- note
- 一、VLM-R1: A stable and generalizable R1-style Large Vision-Language Model
- 二、Open-R1-Video视频理解模型
一、VLM-R1: A stable and generalizable R1-style Large Vision-Language Model
VLM-R1: A stable and generalizable R1-style Large Vision-Language Model: https://github.com/om-ai-lab/VLM-R1 ,用GRPO强化学习提升视觉理解的大型视觉语言模型。用Qwen2.5-VL进行训练
结论:域外数据集上性能比SFT要好,可以关注其训练和评估流程。
二、Open-R1-Video视频理解模型
R1用在多模态,Open-R1-Video:为视频理解任务引入R1范式,开源训练代码和数据,用视频、查询和答案,使用GRPO训练,提升模型推理能力: https://github.com/Wang-Xiaodong1899/Open-R1-Video,在视频数据集 open-r1-video-4k(https://huggingface.co/datasets/Xiaodong/open-r1-video-4k)上训练了 Qwen2-VL-7B-Instruct,使用了4块A100(80G)GPU,训练过程中仅使用了视频、查询以及正确答案的标注(即正确答案的字母),仅采用了GRPO(纯粹的强化学习,没有使用带有标签的推理轨迹)来训练模型。
一个推理的栗子:
类似的项目还有:
- https://github.com/EvolvingLMMs-Lab/open-r1-multimodal
- https://kkgithub.com/TideDra/lmm-r1