当前位置: 首页 > article >正文

指令微调的训练策略

文章目录

    • 优化设置
    • 数据组织策略

    在训练方式上,指令微调与预训练较为相似,很多设置包括数据组织形式都可以预训练阶段所采用的技术。

优化设置

    指令微调中的优化器设置(AdamW 或 Adafactor)、稳定训练技巧(权重衰减和梯度裁剪)和训练技术(3D 并行、ZeRO 和混合精度训练)都与预训练保持阶段一致,可以完全沿用。下面主要介绍一些指令微调与预训练的不同之处。

  • 目标函数. 预训练阶段通常采用语言建模损失,优化模型在每一个词元上的损失。而指令微调可以被视为一个有监督的训练过程,通常采用的目标函数为序列到序列损失,仅在输出部分计算损失,而不计算输入部分的损失。
  • 批次大小和学习率. 考虑到预训练阶段已经学习到了能够展现较好性能的模型参数,指令微调阶段通常只需要使用较小的批次大小和学习率对模型进行小幅度的调整。例如 InstructGPT (175B) 微调的批次大小为 8,学习率恒定为 5.03×10−6;Alpaca (7B) 微调的批次大小为 128,学习率预热到 2 × 10−5,然后采用余弦衰减策略。
  • 多轮对话数据的高效训练. 对于一个多轮对话数据,通常的训练算法是将其拆分成多个不同的对话数据进行单独训练。为了提升训练效率,可以采用特殊的掩码机制来实现多轮对话数据的高效训练。在因果解码器架构中,由于输入输出没有明显的分界

http://www.kler.cn/a/282537.html

相关文章:

  • CentOS7.9 源码编译 FreeSWITCH 1.10.12
  • Opengl光照测试
  • DVWA靶场通关——SQL Injection篇
  • 无插件H5播放器EasyPlayer.js网页web无插件播放器选择全屏时,视频区域并没有全屏问题的解决方案
  • 【Qt】报错error: undefined reference to `vtable for的最简单解决
  • 【安全科普】NUMA防火墙诞生记
  • Spring Cloud Stream与Kafka(二)
  • 基于RK3568智慧交通-雷达视频融合一体机,支持鸿蒙
  • 量子计算与未来的渗透技术(壹)
  • protostuff序列化方式学习
  • 第一个go程序
  • matlab实现模拟退火算法
  • 不确定性环境下的自动驾驶汽车行为决策方法
  • 全能型与专精型AI模型:平衡的艺术
  • 【WPF】WPF学习之面试常问问题
  • Windows10系统中安装Maven 3.8.8的步骤
  • 第T10周:使用TensorFlow实现数据增强
  • 【赵渝强老师】使用Docker Machine远程管理Docker
  • 第42篇 使用数码管实现计数器<三>
  • TCP、HTTP以及RPC的梳理
  • Python将Word文档转为PDF
  • npm报错信息集合——基础积累
  • vue3如何监听reactive对象是哪个属性发生的变化
  • 东华医疗协同办公系统templateFile接口存在任意文件读取漏洞 附POC
  • 我的电脑/资源管理器里无法显示新硬盘?
  • Lua收集请求日志