当前位置: 首页 > article >正文

多模态基础模型训练笔记-第一篇InternVL-g

一、TL;DR

  1. 将之前所有训练过的大模型的过程都总结和回忆一下,遇到的坑别忘了

二、问题记录

还是注意镜像的选择,选择社区最火的镜像,然后下载好对应的数据,主要显卡的选择,这个时候4090已经带不动了,必须选择32G的V100或者40G的A100了:

2.1 train_head:

batchsize=32

这里其实是代码有点小迷惑点哈,你选择4卡4090其实是没问题的,他会选择平摊显存,但是单卡的话,它会将所有的现存都堆到第一张卡里面去,设计上可能有点问题,显卡占用情况如下所示:

具体的实现自己去看代码吧

2.2 train_lora:

使用lora的训练方法明显是不同的,训练参数量如下所示:

loss的数值如下所示:

基本上内存也已经吃满了:

将batchsize设为16,则显存占用如下所示:


http://www.kler.cn/a/549809.html

相关文章:

  • vSamOut
  • APIPark 新增 AI模型负载均衡,APIKey 资源池以及 AI Token 消耗统计等重磅功能!
  • day09_实时类标签/指标
  • 【2025最新版】软件测试面试题总结(150道题含答案解析)
  • JavaScript前端开发:构建交互式网页的魔法
  • repo学习使用
  • 传统混合专家模型MoE架构详解以及python示例(DeepSeek-V3之基础)
  • 面基Spring Boot项目中实用注解一
  • 浅谈无人机群技术的作战应用与战略意义
  • react redux用法学习
  • 2025.2.16
  • 【ISO 14229-1:2023 UDS诊断全量测试用例清单系列:第十节】
  • Oracle启动与关闭(基础操作)
  • CEF132 编译指南 Linux 篇 - 获取 CEF 源代码:源码同步详解(五)
  • 通过内网穿透ssh实现远程对家里的linux进行终端操作和编程
  • 在Amlogic S905X5M Android14 平台上移植移远EC25 4G模组1:内核修改
  • 【Elasticsearch】token filter分词过滤器
  • linux-shell脚本
  • 可观测性面试指南:常见问题与最佳实践
  • 【鱼眼镜头12】Scaramuzza的鱼眼相机模型实操,不依赖于具体的相机几何结构,直接从图像数据出发,因此更具灵活性。