当前位置: 首页 > article >正文

14 大模型微调-KitTrain

1 介绍

如何降低占用的显存:

  1. 梯度累计:在一个完整的模型更新周期(epoch)中,将多个小批量(mini-batches)的数据的梯度进行累加,然后在一个较大的批量(累积步数)之后进行一次模型参数更新。
  2. 梯度检查点;
  3. 优化器;
  4. 冻结模型参数;
  5. 参数高校微调;

但是模型本身的参数并无改变!

     之前提到的大模型微调技术都是冻结原模型的参数,然后添加额外的参数进行训练微调。下面我们针对大模型参数进行修正:比如4个字节的单精度调整为2个字节的;K-bit 训练是一种优化技术,主要用于减少模型训练过程中的内存占用和计算成本。这种方法通常涉及到使用低精度(如8位或更低)来存储和计算模型的权重,从而降低内存需求和加速训练过程。在深度学习领域,常见的低精度训练技术包括8位量化训练(8-bit training)和混合精度训练(Mixed Precision Training)。

1.1 K-bit 训练的主要形式

  1. 8位量化训练(8-bit Training)

    • 在8位量化训练中,模型的权重被量化为8位整数(int8),从而大幅减少内存占用。
    • 为了保持训练的准确性,通常会在前向传播时将量化后的权重反量化回高精度,然后在反向传播时使用高精度梯度进行更新。
  2. 混合精度训练(Mixed Precision Training)

    • 混合精度训练是一种使用不同精度表示模型的不同部分的技术。
    • 通常情况下,模型的权重使用16位浮点数(FP16)表示,而梯度累积和优化器状态使用32位浮点数(FP32)表示。
    • 这种技术已经在许多现代深度学习框架中得到广泛应用,如NVIDIA的 Apex 库。

1.2 K-bit 训练的优势

  • 减少内存占用:使用低精度表示可以显著减少模型的内存占用。
  • 加速训练:低精度计算通常比高精度计算更快,尤其是在支持硬件加速(如GPU)的情况下。
  • 节省计算资源:在分布式训练中,减少通信带宽需求,提高整体训练效率。

2 参数&显存

单精度(4个字节)-> 半精度(2字节)

b16取值范围: 

2**(-24) = 5.960464477539063e-08, 低于这个范围的小数,会取零!

FP16的格式

  • 符号位(Sign bit):1位
  • 指数位(Exponent bits):5位
  • 尾数位(Fraction bits):10位
编码规则
  • 指数偏移量(Exponent bias):15
  • 指数范围:2**5=32 个不同的值,即从 0 到 31,实际有效的指数范围是从(2**(5-1) - 1) −14到 15。

  • 尾数(Mantissa):10位尾数位可以表示 2**10=1024 个不同的值。

取值范围

正常数值

正常数值指的是既不是特殊值也不是无穷大或NaN的情况。对于FP16,正常数值的取值范围如下:

 2**(-10) * 2**(-14) 

  • 最小非零负数:: -65504。

  • 最大负数:与最大正数的绝对值相同,但符号相反: -5.960464477539063×10−8。


http://www.kler.cn/a/287444.html

相关文章:

  • 找不到vcruntime140.dll怎么办,彻底解决vcruntime140.dll丢失的5种方法
  • Java-异步方法@Async+自定义分布式锁注解Redission例子
  • 视觉SLAM--经典视觉SLAM框架
  • QT QLabel双击事件
  • 2411rust,1.80
  • ScubaGear:用于评估 Microsoft 365 配置是否存在安全漏洞的开源工具
  • OpenGL/GLUT实践:绘制旋转的立方体与雪人世界——添加光照与SOIL方式添加纹理(电子科技大学信软图形与动画Ⅱ实验)
  • Linux中如何查看一个进程?如何杀死一个进程?如何查看某个端口有没有被占用?
  • 【Python报错已解决】`TypeError: ‘numpy.ndarray‘ object is not callable`
  • DDS(Data Distribution Service)的数据状态分布和管理简单介绍
  • 微软AD替代方案统一管理Windows和信创电脑的登录认证与网络准入认证
  • Redis的内存淘汰策略- allkeys-lru
  • 用相图分析 bbr,inflight 守恒的收敛速度
  • HTTP协议的建立和终止涉及到TCP协议的连接管理
  • 网络:通过ipv6打开网页
  • 打脸预测,AI泡沫破裂,科技衰退
  • Go语言的编程规则和秘籍
  • 第十三节:学习Springboot整合mybatis——完整篇(自学Spring boot 3.x的第三天)
  • 电脑从按电源键开始到系统启动的全过程
  • Mybatis-plus拦截器BaseMultiTableInnerInterceptor实现(使用场景)
  • 秋招/春招投递公司记录表格
  • 公司来了个大佬,把FullGC 40次/天优化为10天1次,太秀了~!
  • 每天学习一个基础算法之二分查找
  • Python 生成随机的国内 ip
  • 视觉SLAMch4——李群和李代数
  • 单机无法拨号问题分析