当前位置: 首页 > article >正文

大语言模型---LoRA简介;LoRA的优势;LoRA训练步骤;总结

文章目录

  • 1. 介绍
  • 2. LoRA的优势
  • 3. LoRA训练步骤:
  • 4.总结

1. 介绍

LoRA(Low-Rank Adaptation)是一种用于高效微调大模型的技术,它通过在已有模型的基础上引入低秩矩阵来减少训练模型时所需的参数量和计算量。具体来说,LoRA在训练模型时将模型中的某些权重矩阵分解为两个低秩矩阵A和B,并对这些矩阵进行微调(finetune),而模型的其他部分保持冻结不变。

2. LoRA的优势

  1. 它冻结了预训练的模型权重,并将可训练的秩分解矩阵注入到 Transformer 架构的每一层中,大大减少了下游任务的可训练参数的数量。
  2. 与使用 Adam 微调的 GPT3-175B 相比,LoRA 可以将可训练参数数量减少10,000,GPU内存需求减少3倍。

3. LoRA训练步骤:

  1. 选择目标层:首先,在预训练神经网络模型中选择要应用LoRA的目标层。这些层通常是与特定任务相关的,如自注意力机制中的查询Q和键K矩阵。

  2. 初始化映射矩阵A和逆映射矩阵B:映射矩阵A一般用随机高斯分布初始化,当然实际代码实现时,比如微软的deepspeedchat在用到LoRA时,一开始通过0矩阵占位,然后调用搭配ReLU激活函数的kaiming均匀分布初始化;逆映射矩阵B用0矩阵初始化。

  3. 微调模型:用新的参数矩阵替换目标层的原始参数矩阵,然后在特定任务的训练数据上对模型进行微调。

  4. 参数更新:在微调过程中,计算损失函数关于映射矩阵A和逆映射矩阵B的梯度,并使用优化算法(如Adam、SGD等)对矩阵A和B进行更新。(注意,在更新过程中,原始参数矩阵W保持不变,只训练降维矩阵A与升维矩阵B)

  5. 重复更新:在训练的每个批次中,重复步骤3-5,直到达到预定的训练轮次(epoch)或满足收敛条件 。

  6. 合并权重参数:将训练好的映射矩阵A和逆映射矩阵B,跟模型预先训练的权重矩阵进行合并。
    在这里插入图片描述

4.总结

在这里插入图片描述


http://www.kler.cn/a/410337.html

相关文章:

  • 网络安全与加密
  • 2024年11月25日Github流行趋势
  • 前后端分离,解决vue+axios跨域和proxyTable不生效等问题
  • 【R语言管理】Pycharm配置R语言及使用Anaconda管理R语言虚拟环境
  • react项目初始化配置步骤
  • 《macOS 开发环境配置与应用开发》
  • 免费实用在线AI工具集合 - 加菲工具
  • 在 MySQL 记录操作日志,通常有几种方法可以实现。
  • 基于微信小程序的空巢老人健康管理系统
  • 基于Java Springboot个人健康管理系统
  • 3.STM32之通信接口《精讲》之IIC通信---MPU6050介绍
  • 【Linux】DHCP服务实验
  • 层次聚类(Hierarchical Clustering)详解
  • 如何将APK预置到Android系统
  • Java项目实战II基于微信小程序的图书馆自习室座位预约平台(开发文档+数据库+源码)
  • 《硬件架构的艺术》笔记(七):处理字节顺序
  • 基于Java Springboot干洗店预约洗衣系统
  • 正则表达式用于报文中日期时间的编程查找
  • MySQL索引优化与Java应用实践
  • OEM sql monitoring 类似SQL
  • 使用Ansible/SaltStack编写自动化运维脚本
  • 嵌套结构与树结构系列--1.三目运算与二叉树
  • ensp动态路由OSPF实验
  • java笔试练习题笔记(15)
  • 正则表达式灾难:重新认识“KISS原则”的意义
  • Docker 的优势和劣势分别是什么