当前位置: 首页 > article >正文

深度学习-87-大模型训练之预训练和微调所用的数据样式

文章目录

  • 1 大模型训练的阶段
    • 1.1 预训练
      • 1.1.1 全量预训练
      • 1.1.2 二次预训练
    • 1.2 微调
  • 2 预训练需要的数据
    • 2.1 清洗成的文本文档
    • 2.2 如何从文本文档学习
    • 2.3 常见预训练中文语料库
  • 3 微调需要的数据
    • 3.1 微调例子一:电商客服场景
    • 3.2 微调例子二:行政咨询场景
    • 3.3 微调数据长什么样
      • 3.3.1 指令跟随格式
      • 3.3.2 多轮对话格式
      • 3.3.3 文本对齐数据格式
      • 3.3.4 列到序列数据格式
  • 4 参考附录

1 大模型训练的阶段

要了解大模型训练需要什么样的数据之前,先要搞清楚大模型训练的过程,因为不同的阶段所需要的数据类型不同。

目前大模型的训练主要会分为预训练和微调两个阶段,预训练又可以分为全量预训练和二次预训练。
在这里插入图片描述
大模型的训练跟一个人从婴儿成长到能独立工作的过程类似,分了多个阶段,不同阶段训练的目标不同,因此需要用的数据内容和格式也是不同的。

1.1 预训练

预训练是语言模型学习的初始阶段,通过处理大量未标注的文本数据来进行。这些数据包括书籍、文章和网站内容等。在预训练期间,模型的目标是捕获文本语料库中的底层模式、结构和语义知识。

预训练在实践中可以分为两个阶段:全量预训练和二次预训练。

1.1.1 全量预训练

全量预训练是指从零开始对模型进行训练,生成一个预训练模型。

这种模型的特点是通用性强,类似于一个婴儿经过大量培养教育达到高中水平的学生。它具备了语文、数学、英语和地理等通用知识,但对于特定行业领域的专业知识了解有限。

举例来说,通用的预训练模型如通义千问、Ll


http://www.kler.cn/a/507728.html

相关文章:

  • Spring框架 了解
  • Golang学习笔记_26——通道
  • SpringSecurity详解
  • 内存与缓存:保姆级图文详解
  • AIGC时代:如何快速搞定Spring Boot+Vue全栈开发
  • Jenkinsfile共享库介绍
  • 基于PHP的校园新闻发布管理
  • Go入门学习笔记
  • SQL ON与WHERE区别
  • 架构设计:微服务还是集群更适合?
  • Java负载均衡
  • C++ 强化记忆
  • 【Linux系统】分区挂载
  • 图像的旋转之c++实现(qt + 不调包)_c++图像旋转
  • 晨辉面试抽签和评分管理系统之十:如何搭建自己的数据库服务器,使用本软件的网络版
  • 【机器学习实战入门】有趣的Python项目:使用OpenCV进行性别和年龄检测
  • [Mac + Icarus Verilog + gtkwave] Mac运行Verilog及查看波形图
  • 计算机网络 (47)应用进程跨越网络的通信
  • cpu架构
  • Linux之文件系统前世今生(二)
  • Notepad++移除所有空格
  • js-闭包(封装私有变量,创建模块,函数柯里化接收多个参数转换为接收单一参数,实现迭代器-遍历数组与对象)
  • 御载 MATLAB
  • RHCE是什么级别
  • 鸿蒙Flutter实战:16-无痛开发指南(适合新手)
  • ios文件管理,沙盒机制以及如何操作“文件”APP,把文件共享到文件app