当前位置：首页 > article >正文

14 大模型微调-KitTrain

article 2025/1/19 17:20:50

`1 介绍`

如何降低占用的显存：

梯度累计：在一个完整的模型更新周期（epoch）中，将多个小批量（mini-batches）的数据的梯度进行累加，然后在一个较大的批量（累积步数）之后进行一次模型参数更新。
梯度检查点；
优化器；
冻结模型参数；
参数高校微调；

但是模型本身的参数并无改变！

之前提到的大模型微调技术都是冻结原模型的参数，然后添加额外的参数进行训练微调。下面我们针对大模型参数进行修正：比如4个字节的单精度调整为2个字节的；K-bit 训练是一种优化技术，主要用于减少模型训练过程中的内存占用和计算成本。这种方法通常涉及到使用低精度（如8位或更低）来存储和计算模型的权重，从而降低内存需求和加速训练过程。在深度学习领域，常见的低精度训练技术包括8位量化训练（8-bit training）和混合精度训练（Mixed Precision Training）。

1.1 K-bit 训练的主要形式

8位量化训练（8-bit Training）：
- 在8位量化训练中，模型的权重被量化为8位整数（int8），从而大幅减少内存占用。
- 为了保持训练的准确性，通常会在前向传播时将量化后的权重反量化回高精度，然后在反向传播时使用高精度梯度进行更新。
混合精度训练（Mixed Precision Training）：
- 混合精度训练是一种使用不同精度表示模型的不同部分的技术。
- 通常情况下，模型的权重使用16位浮点数（FP16）表示，而梯度累积和优化器状态使用32位浮点数（FP32）表示。
- 这种技术已经在许多现代深度学习框架中得到广泛应用，如NVIDIA的 Apex 库。

1.2 K-bit 训练的优势

减少内存占用：使用低精度表示可以显著减少模型的内存占用。
加速训练：低精度计算通常比高精度计算更快，尤其是在支持硬件加速（如GPU）的情况下。
节省计算资源：在分布式训练中，减少通信带宽需求，提高整体训练效率。

2 参数&显存

单精度（4个字节）-> 半精度（2字节）

b16取值范围：

2**(-24) = 5.960464477539063e-08，低于这个范围的小数，会取零！

FP16的格式

符号位（Sign bit）：1位
指数位（Exponent bits）：5位
尾数位（Fraction bits）：10位

编码规则

指数偏移量（Exponent bias）：15
指数范围：2**5=32 个不同的值，即从 0 到 31，实际有效的指数范围是从（2**(5-1) - 1） −14到 15。

尾数（Mantissa）：10位尾数位可以表示 2**10=1024 个不同的值。

取值范围

正常数值

正常数值指的是既不是特殊值也不是无穷大或NaN的情况。对于FP16，正常数值的取值范围如下：

2**(-10) * 2**(-14)

最小非零负数：: -65504。
最大负数：与最大正数的绝对值相同，但符号相反: -5.960464477539063×10−8。

http://www.kler.cn/a/287444.html

相关文章：

数据结构题目课时6

SpringBoot项目打war包要点

【21】Word：德国旅游业务❗

在服务器上增加新网段IP的路由配置

Redis超详细入门教程（基础篇）

Titans 架构中的记忆整合：Memory as a Context；Gated Memory；Memory as a Layer

OpenGL/GLUT实践：绘制旋转的立方体与雪人世界——添加光照与SOIL方式添加纹理（电子科技大学信软图形与动画Ⅱ实验）

Linux中如何查看一个进程？如何杀死一个进程？如何查看某个端口有没有被占用？

【Python报错已解决】`TypeError: ‘numpy.ndarray‘ object is not callable`

DDS（Data Distribution Service）的数据状态分布和管理简单介绍

微软AD替代方案统一管理Windows和信创电脑的登录认证与网络准入认证

Redis的内存淘汰策略- allkeys-lru

用相图分析 bbr，inflight 守恒的收敛速度

HTTP协议的建立和终止涉及到TCP协议的连接管理

网络：通过ipv6打开网页

打脸预测，AI泡沫破裂，科技衰退

Go语言的编程规则和秘籍

第十三节：学习Springboot整合mybatis——完整篇（自学Spring boot 3.x的第三天）

电脑从按电源键开始到系统启动的全过程

Mybatis-plus拦截器BaseMultiTableInnerInterceptor实现（使用场景）

秋招/春招投递公司记录表格

公司来了个大佬，把FullGC 40次/天优化为10天1次，太秀了~！

每天学习一个基础算法之二分查找

Python 生成随机的国内 ip

视觉SLAMch4——李群和李代数

单机无法拨号问题分析