当前位置：首页 > article >正文

sheng的学习笔记-AI-时序差分学习

article 2025/3/9 10:40:25

AI目录：sheng的学习笔记-AI目录-CSDN博客

强化学习：sheng的学习笔记-AI-强化学习（Reinforcement Learning, RL）-CSDN博客

蒙特卡罗强化学习： sheng的学习笔记-AI-蒙特卡罗强化学习-CSDN博客

什么是时序差分学习

时序差分学习是强化学习中的免模型学习

免模型学习：在现实的强化学习任务中，环境的转移概率、奖赏函数往往很难得知，甚至很难知道环境中一共有多少状态.若学习算法不依赖于环境建模，则称为“免模型学习”

蒙特卡罗强化学习在一个完整的采样轨迹完成后再对所有的状态-动作对进行更新，因为在“完整”的采样轨迹后才更新，所以速度比较慢。

为了提升速度，可以基于动态规划的策略迭代和值迭代算法在每执行一步策略后就进行值函数更新

就是目标值 = 上一步的目标值 + 本次奖赏，这种算法比目标值 = （所有奖励的和）/ m 会快

每执行一步策略就更新一次值函数估计，于是得到图16.12的算法。该算法由于每次更新值函数需知道前一步的状态(state)、前一步的动作(action)、奖赏值(reward)、当前状态(state)、将要执行的动作(action)，由此得名为Sarsa算法

Android——ContentObserver监听短信

Mysql高级篇（中）——锁机制

[SAP ABAP] SELECT-OPTIONS

线程池面试集

npm下载淘宝镜像的方式和用法

前端注释规范

Mac安装manim

R包：VennDiagram韦恩图

1.2.3 HuggingFists安装说明-MacOS安装

小白投资理财 - 证券开户

React 有哪些生命周期

开源服务器管理软件Nexterm