当前位置: 首页 > article >正文

深度学习-86-大模型训练之为什么要设计成预训练和微调两个阶段

文章目录

  • 1 提升大模型泛化能力
    • 1.1 大模型泛化能力是什么
    • 1.2 大模型与传统AI区别大的原因
    • 1.3 泛化能力的重要性
    • 1.4 预训练与微调如何提升泛化能力
      • 1.4.1 预训练提升了通用泛化能力
      • 1.4.2 微调提升了特定场景的泛化能力
      • 1.4.3 结合预训练和微调的好处
  • 2 降低大模型训练成本
    • 2.1 预训练(一次性高投入长期复用)
    • 2.2 微调(低成本适应特定任务)
    • 2.3 降低开发门槛
  • 3 AI模型推理与训练的差异
    • 3.1 什么是AI推理
    • 3.2 推理的运行过程
    • 3.3 推理框架
    • 3.4 实际应用
    • 3.5 训练与推理的区别
  • 4 参考附录

在训练大模型时与传统 AI 表现出显著的不同,大模型训练分为预训练和微调的阶段,那么为什么会分为两个阶段呢?
在这里插入图片描述
主要出于两个目的:提升大模型泛化能力,降低大模型训练成本。

1 提升大模型泛化能力

1.1 大模型泛化能力是什么

泛化能力是指模型从训练数据中学习到的知识和模式,能够应用到新的数据、任务或环境中的能力。
简单来说,就是模型在面对未曾见过的情况时,依然能够做出合理的判断、预测或生成合适内容的能力
例如,一个图像分类模型在学习了各种动物的图片后,当看到一张从未见过的动物新品种的图片时,能够根据已学的动物特征(如四条腿、毛茸茸等)正确地对其进行分类,这就体现了模型的泛化能力。

(1)传统AI,泛化能力弱。学会了具体的规则,只能应对固定的场景,这就像传统AI,训练中学会了某些任务,但遇到新问题可能“卡壳”。

(2)大模型AI,泛化能力强。掌握了规则背后的原理和灵活性,能根据新情况调整做法,这就


http://www.kler.cn/a/508470.html

相关文章:

  • 《C++11》中的显式虚函数重载:深入理解与应用
  • Dart语言的语法
  • Windows 蓝牙驱动开发-蓝牙设备栈
  • docker一张图理解
  • C# 并发和并行的区别--16
  • 如何有效防止和解决IP劫持问题
  • 第十三章:数据库技术
  • GPT-5 传言:一场正在幕后发生的 AI 变革
  • OpenHarmony-Graphic_2d子系统
  • Reactor编程模型中,阻塞上传文件FilePart的3中方式
  • 蓝桥杯3527阶乘的和 | 组合数学
  • 从零搭建SpringBoot3+Vue3前后端分离项目基座,中小项目可用
  • PCL K4PCS算法实现点云粗配准【2025最新版】
  • 软件工程3.0时代,AI落地研效成熟时
  • idea创建SpringBoot自动创建Lombok无效果(解决)
  • 力扣刷题汇总
  • vue3 移动端h5 加载高德地图 封装地图组件
  • java springboot3.x jwt+spring security6.x实现用户登录认证
  • 宝塔自动备份数据库到阿里云 OSS
  • 基于docker微服务日志ELK+Kafka搭建
  • Vue.js组件开发-如何处理跨域请求
  • 项目开发实践——基于SpringBoot+Vue3实现的在线考试系统(六)
  • 审计文件标识作为水印打印在pdf页面边角
  • 【开源宝藏】Jeepay VUE和React构建WebSocket通用模板
  • 【PyQt】图像处理系统
  • phpstudy靶场搭建问题