当前位置: 首页 > article >正文

sheng的学习笔记-AI-时序差分学习

AI目录:sheng的学习笔记-AI目录-CSDN博客

强化学习:sheng的学习笔记-AI-强化学习(Reinforcement Learning, RL)-CSDN博客

蒙特卡罗强化学习: sheng的学习笔记-AI-蒙特卡罗强化学习-CSDN博客

什么是时序差分学习

时序差分学习是强化学习中的免模型学习

免模型学习:在现实的强化学习任务中,环境的转移概率、奖赏函数往往很难得知,甚至很难知道环境中一共有多少状态.若学习算法不依赖于环境建模,则称为“免模型学习”

蒙特卡罗强化学习在一个完整的采样轨迹完成后再对所有的状态-动作对进行更新,因为在“完整”的采样轨迹后才更新,所以速度比较慢。

值函数估计

为了提升速度,可以基于动态规划的策略迭代和值迭代算法在每执行一步策略后就进行值函数更新

就是 目标值 = 上一步的目标值 + 本次奖赏 ,这种算法比  目标值 = (所有奖励的和)/ m 会快

Sarsa算法 

每执行一步策略就更新一次值函数估计,于是得到图16.12的算法。该算法由于每次更新值函数需知道前一步的状态(state)、前一步的动作(action)、奖赏值(reward)、当前状态(state)、将要执行的动作(action),由此得名为Sarsa算法

Q-学习(Q-learning)算法


http://www.kler.cn/a/324123.html

相关文章:

  • 使用React和Vite构建一个AirBnb Experiences克隆网站
  • 【计算机网络】TCP协议特点3
  • 报错 No available slot found for the embedding model
  • FingerprintSimilarity和BulkTanimotoSimilarity的区别
  • 网络原理-网络层和数据链路层
  • PVE纵览-安装系统卡“Loading Driver”的快速解决方案
  • Android——ContentObserver监听短信
  • Mysql高级篇(中)——锁机制
  • 前端测试最强教程 - 实现 fake http 和 fake db
  • [SAP ABAP] SELECT-OPTIONS
  • 线程池面试集
  • 「JavaScript深入」深拷贝与浅拷贝,如何手写实现?
  • npm下载淘宝镜像的方式和用法
  • 在一个.NET Core项目中使用RabbitMQ进行即时消息管理
  • 前端注释规范
  • Mac安装manim
  • R包:VennDiagram韦恩图
  • 1.2.3 HuggingFists安装说明-MacOS安装
  • 供应链 | 顶刊POMS论文精读:交易成本经济学(TCE)——供应链效率理论
  • 小白投资理财 - 证券开户
  • WPF MVVM入门系列教程(一、MVVM模式介绍)
  • React 有哪些生命周期
  • 开源服务器管理软件Nexterm
  • 提取出来的ip与我原本的ip是在同一个区吗
  • Python编码系列—Python备忘录模式:掌握对象状态保存与恢复技术
  • 【成神之路】Ambari实战-013-代码生命周期-metainfo-configFiles详解