当前位置：首页 > article >正文

大模型基本原理（二）——ChatGPT的工作原理

article 2025/2/12 17:20:44

如何得到一个ChatGPT？

1、无监督预训练：通过大量的文本数据集进行无监督训练，得到一个基座模型（只会续写文本）

2、监督微调：通过一些人类撰写的高质量对话数据对基座模型进行监督微调，得到一个微调后的基座模型（除了能续写文本，还具备更好的对话能力）

3、训练奖励模型+强化学习训练：用问题和对各对应回答的数据，让人类标注员对回答进行质量排序，基于这些数据，训练出一个能对回答进行评分预测的奖励模型。

让监督微调模型对问题生成回答，用奖励模型对回答进行打分，利用评分作为反馈进行强化学习训练，就能够得到最终的ChatGPT了。

接下来让我们对每一个步骤进行详细解读

1、无监督预训练

基座模型需要海量的文本数据进行训练

无监督训练：以原始文本作为数据集和监督信息，模型通过前面的文本预测下一个出现的单词。

2、监督微调

以人类写的专业且高质量的对话作为监督数据集训练基座模型，最后得到SFT模型。

3、训练奖励模型+强化学习训练

强化学习：

让模型在环境里采取行动，获得结果反馈，从反馈里学习，从而能在给定情况下采取最佳行动，来最大化奖励或最小化损失。

理想情况下是将问题抛给GPT，人类对GPT做出的回答进行打分，最终GPT根据打分优化模型。

打分一般基于3H原则：

但是人类打分成本高效率低，于是开发了一个奖励模型，能够对GPT生成的回答进行打分。

奖励模型

训练数据：让SFT模型对每个问题生成多个回答，让人类对多个回答进行比较排序。这些数据就可以作为奖励模型的训练数据了。

经过训练后，奖励模型就能够正确的预测出GPT每个回答的评分了。

最终，经过不断的强化学习训练，奖励模型不变，SFT模型不断优化权重参数，最终得到能够和人类进行对话的Chat GPT了。

查看全文

http://www.kler.cn/a/542341.html

【cocos creator】拖拽排序列表

3.4 学习UVM中的uvm_monitor类分为几步？

棱光PDF工具箱：一站式解决你的各种需要

DeepSeek训练成本与技术揭秘

工业相机在工业生产制造过程中的视觉检测技术应用

【C++11】lambda和包装器

BUU35 [DASCTF X GFCTF 2024|四月开启第一局]EasySignin 100 【gopher打mysql】

飞牛使用docker部署MoviePilot V2自动化影视管理平台教程

剪辑如何剪辑制作视频短视频剪辑学习怎么学，难吗？

安川伺服控制器MP系列优势特点及行业应用

Oracle入门精读03_Oracle11g安装目录及子目录的结构简介

计算机毕业设计Tensorflow+LSTM空气质量监测及预测系统天气预测系统 Spark Hadoop 深度学习机器学习人工智能

认识一下redis的分布式锁

aspectFill（填充目标区域的同时保持图像的原有宽高比 (aspect ratio）图像不会被拉伸或压缩变形

2.11 sqlite3数据库【数据库的相关操作指令、函数】

Java 使用腾讯翻译 API 实现含 HTML 标签文本，json值，精准翻译工具

机器学习怎么学习,还有算法基本的源代码

青少年编程与数学 02-009 Django 5 Web 编程 06课题、模型定义

深度剖析责任链模式

社区版IDEA中配置TomCat（详细版）

【强化学习入门笔记】3.2 策略梯度法:REINFORCE

什么是矩阵账号？如何做矩阵账号运营？

HarmonyOS NEXT - picker 选择器( 包含单列、多列、底部选择器)

Django学习笔记（第一天：Django基本知识简介与启动）

C++性能优化—人工底稿版

Ubuntu 下 nginx-1.24.0 源码分析 ngx_tm_t 类型