当前位置：首页 > article >正文

强化学习入门

article 2025/2/23 17:29:28

1 强化学习分类

1.1 是否理解环境

不理解环境 Model-free RL
a. 必须根据真实世界的反馈进行调整
理解环境 Model-based RL
a. 可以根据模型推理未来变化，不必依赖当前世界的反馈

1.2 概率/价值

基于概率 Policy-based
a. 输出每个动作的概率
b. Policy gradients
基于价值 Value-based
a. 输出每个动作的价值
b. Q learning / Sarsa

1.3 回合/单步更新

回合更新 Monte-Carlo update
a. 游戏直到结束，才能更新一次
单步更新 Temporal-Difference update
a. 游戏每进行一步，就可以更新一次

1.4 在线/离线

在线学习
a. 走一步更新一步
b. Sarsa
离线学习
a. 可以先存储知识，到一定步之后再更新
b. Q learning / Deep Q network

2 PPO与GRPO

去掉Value model（Critic model），无需额外的价值函数
在这里插入图片描述

http://www.kler.cn/a/554680.html

相关文章：

MySQL 三层 B+ 树能存多少数据？

Maven 与 Kubernetes 部署：构建和部署到 Kubernetes 环境中

Windows环境打印文档的同时自动生成PDF副本的方法

ffmpeg 多路流处理在iOS的具体使用

2024年国赛高教杯数学建模A题板凳龙闹元宵解题全过程文档及程序

悬挂引用，智能指针裸指针悬挂指针

基础前端面试题：HTML网站开发中，如何实现图片的懒加载

rust笔记7-生命周期显式标注

3分钟了解内外网文件传输：常见方法、注意事项有哪些？

13-R数据重塑

后端Java Stream数据流的使用=＞代替for循环

Compose 组件渲染流程

如何在Ubuntu 22.04上安装NVIDIA驱动：自动安装与手动安装的全面指南

非常简洁的一个 Excel 导出封装,生成多个 Excel 文件并打包成 zip 通过浏览器下载

责任链模式原理详解和源码实例以及Spring AOP拦截器链的执行源码如何使用责任链模式？

UEFI Spec 学习笔记---6 - Block Translation Table (BTT) Layout

算法从0到100之【专题一】- 双指针第一练（数组划分、数组分块）

AI 是如何赋能企业，推动新的“商业革命”的？

国产编辑器EverEdit -告别东找西找！一键打开当前文件所在目录！

RocketMQ保证消息有序性