当前位置: 首页 > article >正文

强化学习——基本概念

  • state

例如上图就是location,就是网格的位置为state

  • action

就是可采取的行动,这里就是可以move的位置

  • state transition

就是状态采取action后的state

  • forbidden area考虑两种,一种是可以进去,但是会有惩罚,第二种不可以。课程采用的第一种

  • Policy 告诉agent在每个state应该采取什么action

  • 比如用Π表示策略,在状态S1下采取不同的action的概率。其概率之和为1

  • reward

当这个数是正数,代表这个行为是鼓励的,如果是负数,代表为惩罚,这个行为不鼓励。(这个正负数是相对的,就是数学概念,比如也可以用正数代表惩罚)

  • agent到达不同的位置的奖励分数,或者在不同的状态下采取对应的行动获得的得分

  • trajectory

包含了状态,action, reward。每个trajectory需要有return

  • 数学上定义一个policy比较好的方式,就是return的值比较好

  • discounted return

如上图,每次进入到target都会得一分,然后分数就会无穷大了

  • 使用discounted rate

每一个reward都设置一个\gamma,此时这个无穷值就变成了一个数,并且,如果\gamma接近0,证明后面的reward的影响衰减快,主要依赖于前面的reward,等于1,则衰减的较慢。

减少会更加近视,注重前面的reward,增加会更加远视

  • Episode

通常是有限步,就是有限步后停止了

MDP

  • 集合化
    • 状态集合S
    • 行为集合A(s)
    • 回报集合R(s,a)
  • 概率分布
    • 状态过度概率:在当前的状态s采取行动a,到达s'的概率
    • 回报过度概率:在当前的状态s采取行动a,获得分数r的概率
  • policy
  • 与历史无关

得到状态St+1只与t的状态和行为有关

decision process给出policy后变为markov process


http://www.kler.cn/news/335299.html

相关文章:

  • 傅里叶分析之掐死教程(完整版)更新于2014.06.06
  • Docker安装人大金仓(kingbase)关系型数据库教程
  • 通过URL与数据库交互(十三)
  • 教你快速成为洛谷红名大佬!2分钟学会,2个月成功!
  • MVVM 架构模式:解耦、可测试与高效
  • 【深度强化学习】DDPG实现的4个细节(OUNoise等)
  • 【Python】Hypercorn:轻量级的异步ASGI/WSGI服务器
  • ubuntu中挂载点内存不足,分配不合理后使用软链接的注意事项
  • C++ | Leetcode C++题解之第456题132模式
  • Linux中环境变量
  • S7-200 SMART Modbus RTU常见问题
  • 一文上手SpringSecurity【八】
  • SpringCloudStream+RocketMQ多topic
  • Spring Boot新闻推荐系统:技术与策略
  • uniapp 上了原生的 echarts 图表插件了 兼容性还行
  • 基于单片机远程家电控制系统设计
  • vsomeip用到的socket
  • http2详细讲解
  • Graph Retrieval-Augmented Generation: A Survey
  • d3底层绘制拓扑图