当前位置: 首页 > article >正文

[PyTorch][chapter 66][强化学习-值函数近似]

前言

                现实强化学习任务面临的状态空间往往是连续的,无穷多个。

这里主要针对这种连续的状态空间处理。后面DQN 也是这种处理思路。

目录:

   1: 原理

   2: 梯度更新

   3: target 和 预测值

   4     流程


一 原理

       强化学习最重要的是得到 值函数,或者动作-状态值函数,

  根据值函数可以得到最优策略。

   当状态空间为连续的时候,表达为状态的线性函数

     V_{\theta}(x)=\theta^{T}x

     x:状态向量

    \theta: 向量参数

        我们希望通过上面公式学得的值函数尽可能接近真实的V^{\pi},近似度经常用最小二乘误差度量

   E_{\theta}=E_{x \sim \pi}[V^{\pi}(x)-V_{\theta}(x)]^2

  E_{x \sim \pi}  表示由策略采样得到的状态上的期望


二  梯度更新

     为了使得误差最小,采用梯度下降法,对误差求梯度导数

      \frac{\partial E}{\partial \theta}=E_{x \sim pi}[2(V^{\pi}(x)-V_{\theta}(x))x]

     于是可得到对于单个样本的更新规则

     \theta= \theta+\alpha(V^{\pi}(x)-V_{\theta}(x))x


三 预测值 和  target 

     我们并不知道策略的真实值函数 V^{\pi},可以借助时序差分学习,

基于 v^{\pi}(x)=r+\gamma V^{\pi}(x^{'}) 用当前估计的值函数替代真实的值函数,

 则

   \theta =\theta +\alpha(r+\gamma V_{\theta}(x^{'})-V_{\theta}(x))x

       =\theta+\alpha(r+\gamma \theta^{T}x^{'}-\theta^{T}x)x

       在时序差分学习中,需要 状态-动作函数以获取策略,这里一种简单的做法

是令\theta 作用于状态和动作的联合向量上,例如给状态向量增加一维用于存放

动作编号,(x,a),另一种做法是对动作变量a 进行one-hot 编码,再合并到x.

 

   训练的时候:

     预测值: v_{\theta}(x)

     target:   r+\gamma V_{\theta}(x^{'})


四  流程

   

 

   


http://www.kler.cn/a/145805.html

相关文章:

  • 2. CSS 中的单位
  • 【K8S系列】K8s 领域深度剖析:年度技术、工具与实战总结
  • 2024微短剧行业生态洞察报告汇总PDF洞察(附原数据表)
  • ovs实现lb负载均衡
  • C语言:位段
  • 2024春秋杯密码题第一、二天WP
  • NextJS开发:Prisma数据库事务处理
  • Java毕业设计 SpringBoot 车辆充电桩系统
  • Linux C语言 22-多进程
  • 记录问题-使用@Validated报错Validation failed for argument [0]
  • 微信小程序富文本拓展rich-text
  • 【Spring Boot】如何集成Swagger
  • Python---函数的数据---拆包的应用案例(两个变量值互换,*args, **kwargs调用时传递参数用法)
  • 数据同步异常处理,数据同步重试机制(Java)
  • 1.1 C语言之入门:使用Visual Studio Community 2022运行hello world
  • Kotlin应用——使用kt进行web开发 使用h2database进行初始化数据库 mybatis-plus使用
  • 单片机调试技巧--修改bin文件实现断点
  • pytorch分布式训练
  • 【youlai-boot 】 Spring Boot 3 + Vue 3 前后端分离权限管理系统说明文档
  • 枚举的第一行
  • linux部署jar 常见问题
  • Postgresql WAL日志解析挖掘(walminer 3.0)
  • 基于Python实现汽车销售数据可视化+预测【500010086.1】
  • css Vue尺子样式
  • Spring Boot 项目中读取 YAML 文件中的数组、集合和 HashMap
  • 基于单片机的智能鱼缸(论文+源码)