多模态基础模型训练笔记-第一篇InternVL-g
一、TL;DR
- 将之前所有训练过的大模型的过程都总结和回忆一下,遇到的坑别忘了
二、问题记录
还是注意镜像的选择,选择社区最火的镜像,然后下载好对应的数据,主要显卡的选择,这个时候4090已经带不动了,必须选择32G的V100或者40G的A100了:
2.1 train_head:
batchsize=32
这里其实是代码有点小迷惑点哈,你选择4卡4090其实是没问题的,他会选择平摊显存,但是单卡的话,它会将所有的现存都堆到第一张卡里面去,设计上可能有点问题,显卡占用情况如下所示:
具体的实现自己去看代码吧
2.2 train_lora:
使用lora的训练方法明显是不同的,训练参数量如下所示:
loss的数值如下所示:
基本上内存也已经吃满了:
将batchsize设为16,则显存占用如下所示: