当前位置：首页 > article >正文

强化学习——基本概念

article 2024/10/7 0:57:28

state

例如上图就是location，就是网格的位置为state

action

就是可采取的行动，这里就是可以move的位置

state transition

就是状态采取action后的state

forbidden area考虑两种，一种是可以进去，但是会有惩罚，第二种不可以。课程采用的第一种

Policy 告诉agent在每个state应该采取什么action

比如用Π表示策略，在状态S1下采取不同的action的概率。其概率之和为1

reward

当这个数是正数，代表这个行为是鼓励的，如果是负数，代表为惩罚，这个行为不鼓励。（这个正负数是相对的，就是数学概念，比如也可以用正数代表惩罚）

agent到达不同的位置的奖励分数，或者在不同的状态下采取对应的行动获得的得分

trajectory

包含了状态，action, reward。每个trajectory需要有return

数学上定义一个policy比较好的方式，就是return的值比较好

discounted return

如上图，每次进入到target都会得一分，然后分数就会无穷大了

使用discounted rate

每一个reward都设置一个 $\gamma$ ，此时这个无穷值就变成了一个数，并且，如果 $\gamma$ 接近0，证明后面的reward的影响衰减快，主要依赖于前面的reward，等于1，则衰减的较慢。

减少会更加近视，注重前面的reward，增加会更加远视

Episode

通常是有限步，就是有限步后停止了

MDP

集合化

- 状态集合S
- 行为集合A(s)
- 回报集合R(s,a)

概率分布

- 状态过度概率：在当前的状态s采取行动a，到达s'的概率
- 回报过度概率：在当前的状态s采取行动a，获得分数r的概率

policy
与历史无关

得到状态St+1只与t的状态和行为有关

decision process给出policy后变为markov process

查看全文

http://www.kler.cn/news/335299.html

傅里叶分析之掐死教程（完整版）更新于2014.06.06

Docker安装人大金仓（kingbase）关系型数据库教程

通过URL与数据库交互（十三）

教你快速成为洛谷红名大佬！2分钟学会，2个月成功！

MVVM 架构模式：解耦、可测试与高效

【深度强化学习】DDPG实现的4个细节（OUNoise等）

【Python】Hypercorn：轻量级的异步ASGI/WSGI服务器

ubuntu中挂载点内存不足，分配不合理后使用软链接的注意事项

C++ | Leetcode C++题解之第456题132模式

Linux中环境变量

S7-200 SMART Modbus RTU常见问题

一文上手SpringSecurity【八】

SpringCloudStream+RocketMQ多topic

Spring Boot新闻推荐系统：技术与策略

uniapp 上了原生的 echarts 图表插件了兼容性还行

基于单片机远程家电控制系统设计

vsomeip用到的socket

http2详细讲解

Graph Retrieval-Augmented Generation: A Survey

d3底层绘制拓扑图

MDP

相关文章：