当前位置: 首页 > article >正文

跟着杰哥学强化学习:q-learning的一些思考

  1. 为什么上下左右移动
    当初始状态的时候,agent在左上角,每一个动作的价值都是0,由于排序是up,down,left,right,所以在取max值的时候优先会取到up,这个时候超出边框了,reward是负数,也就是q(s=‘(0,0)’, a=‘up’)是负数,复位后agent还是在(0,0)的位置,这个时候agent再选择最大值的时候就不会选择up了,因为up是负数了,同样,left也是负数,如果按照greedy的方式就选不到up和left。这个时候会发现agent优先往下,为啥不是往右呢?因为咱们的动作价值的排序是按照up,down,left,right来看的,up和left都是负数,down和right现在还都是0,所以选择max的时候就会选到down。
    当选择down的时候,agent的位置变成了(0,1),这个位置之前也从来没有探索过,所以四个动作的价值都是0,按照greedy的方式会选择up,为啥呢?还是因为动作排序的方式是up,down,left,right,哭死了。如果选择了up,agnet就又回到了(0,0)也就是初始位置。之前分计算,(0,0)的up和left都是负数,所以只能选择down和right,如果按照greedy的方式,就会优先选择down,这个时候agent就会转移到(0,1),所以就会发现一直再上下上线的波动,即使我们增加了e-greedy随机探索的方式,agent选择了right,移动过了(1,0),下一步如果是greedy,依然会选择up,跳出边框后再次复位(0,0)。整体来看就是上下跳动,然后夹杂着左右移动。

http://www.kler.cn/news/16206.html

相关文章:

  • 有仰拍相机和俯拍相机时,俯拍相机中心和吸嘴中心的标定
  • 研究生,但是一直摆烂——想办法解决
  • 数据治理在学术上的发展史以及未来展望
  • 一天吃透Redis面试八股文
  • 【华为OD机试真题】最大N个数与最小N个数的和(C++javapython)100%通过率 超详细代码注释 代码解读
  • 基于AI技术的智能考试系统设计与实现(论文+源码)_kaic
  • Oracle删除列操作:逻辑删除和物理删除
  • 【Linux - Shell常用命令】- 判断文件是否存在、去掉文件后缀
  • [java]云HIS:检验字典维护
  • No.054<软考>《(高项)备考大全》【冲刺8】《软考之 119个工具 (6)》
  • 【SAS应用统计分析】方差分析
  • 普通的2D Average pooling是怎么进行backward的呢?
  • [Pandas] 查看DataFrame的常用属性
  • 云原生CAx软件:多租户的认证
  • MySQL数据库,JDBC连接数据库操作流程详细介绍
  • 西门子PLC沿脉冲类指令汇总
  • 5.5.1哈夫曼树
  • GDKOI 2023游记总结
  • 【BeautifulSoup上】——05全栈开发——如桃花来
  • Afkayas.1(★)
  • 学习系统编程No.20【进程间通信之命名管道】
  • 大数据架构(一)背景和概念
  • 从0搭建Vue3组件库(十一): 集成项目的编程规范工具链(ESlint+Prettier+Stylelint)
  • 盈泰德带你了解产品表面缺陷检测系统
  • Idea关闭或开启引用提示Usages和Annotations
  • Vulnhub:DerpNStink 1靶机
  • C语言程序设计:某班有5名同学,建立一个学生的简单信息表,包括学号、姓名、3门课程的成绩,编写程序,计算每名学生的平均成绩及名次。
  • 配置Bridge模式KVM虚拟机
  • 第六章结构型模式—代理模式
  • Springboot +Flowable,设置任务处理人的四种方式(一)