当前位置: 首页 > article >正文

强化学习入门

1 强化学习分类

1.1 是否理解环境

  1. 不理解环境 Model-free RL
    a. 必须根据真实世界的反馈进行调整
  2. 理解环境 Model-based RL
    a. 可以根据模型推理未来变化,不必依赖当前世界的反馈

1.2 概率/价值

  1. 基于概率 Policy-based
    a. 输出每个动作的概率
    b. Policy gradients
  2. 基于价值 Value-based
    a. 输出每个动作的价值
    b. Q learning / Sarsa

1.3 回合/单步更新

  1. 回合更新 Monte-Carlo update
    a. 游戏直到结束,才能更新一次
  2. 单步更新 Temporal-Difference update
    a. 游戏每进行一步,就可以更新一次

1.4 在线/离线

  1. 在线学习
    a. 走一步更新一步
    b. Sarsa
  2. 离线学习
    a. 可以先存储知识,到一定步之后再更新
    b. Q learning / Deep Q network

2 PPO与GRPO

去掉Value model(Critic model),无需额外的价值函数
在这里插入图片描述


http://www.kler.cn/a/554680.html

相关文章:

  • MySQL 三层 B+ 树能存多少数据?
  • Maven 与 Kubernetes 部署:构建和部署到 Kubernetes 环境中
  • Windows环境打印文档的同时自动生成PDF副本的方法
  • ffmpeg 多路流处理在iOS的具体使用
  • 2024年国赛高教杯数学建模A题板凳龙闹元宵解题全过程文档及程序
  • 悬挂引用,智能指针 裸指针 悬挂指针
  • 基础前端面试题:HTML网站开发中,如何实现图片的懒加载
  • rust笔记7-生命周期显式标注
  • 3分钟了解内外网文件传输:常见方法、注意事项有哪些?
  • 13-R数据重塑
  • 后端Java Stream数据流的使用=>代替for循环
  • Compose 组件渲染流程
  • 如何在Ubuntu 22.04上安装NVIDIA驱动:自动安装与手动安装的全面指南
  • 非常简洁的一个 Excel 导出封装,生成多个 Excel 文件并打包成 zip 通过浏览器下载
  • 责任链模式原理详解和源码实例以及Spring AOP拦截器链的执行源码如何使用责任链模式?
  • UEFI Spec 学习笔记---6 - Block Translation Table (BTT) Layout
  • 算法从0到100之【专题一】- 双指针第一练(数组划分、数组分块)
  • AI 是如何赋能企业,推动新的“商业革命”的?
  • 国产编辑器EverEdit -告别东找西找!一键打开当前文件所在目录!
  • RocketMQ保证消息有序性