深度学习-86-大模型训练之为什么要设计成预训练和微调两个阶段
文章目录
- 1 提升大模型泛化能力
-
- 1.1 大模型泛化能力是什么
- 1.2 大模型与传统AI区别大的原因
- 1.3 泛化能力的重要性
- 1.4 预训练与微调如何提升泛化能力
-
- 1.4.1 预训练提升了通用泛化能力
- 1.4.2 微调提升了特定场景的泛化能力
- 1.4.3 结合预训练和微调的好处
- 2 降低大模型训练成本
-
- 2.1 预训练(一次性高投入长期复用)
- 2.2 微调(低成本适应特定任务)
- 2.3 降低开发门槛
- 3 AI模型推理与训练的差异
-
- 3.1 什么是AI推理
- 3.2 推理的运行过程
- 3.3 推理框架
- 3.4 实际应用
- 3.5 训练与推理的区别
- 4 参考附录
在训练大模型时与传统 AI 表现出显著的不同,大模型训练分为预训练和微调的阶段,那么为什么会分为两个阶段呢?
主要出于两个目的:提升大模型泛化能力,降低大模型训练成本。
1 提升大模型泛化能力
1.1 大模型泛化能力是什么
泛化能力是指模型从训练数据中学习到的知识和模式,能够应用到新的数据、任务或环境中的能力。
简单来说,就是模型在面对未曾见过的情况时,依然能够做出合理的判断、预测或生成合适内容的能力。
例如,一个图像分类模型在学习了各种动物的图片后,当看到一张从未见过的动物新品种的图片时,能够根据已学的动物特征(如四条腿、毛茸茸等)正确地对其进行分类,这就体现了模型的泛化能力。
(1)传统AI,泛化能力弱。学会了具体的规则,只能应对固定的场景,这就像传统AI,训练中学会了某些任务,但遇到新问题可能“卡壳”。
(2)大模型AI,泛化能力强。掌握了规则背后的原理和灵活性,能根据新情况调整做法,这就