当前位置: 首页 > article >正文

强化学习——马尔可夫决策过程的理解

在这里插入图片描述

目录

  • 一、马尔可夫决策过程
    • 1.策略
    • 2.状态价值函数
    • 3.动作价值函数
    • 4.贝尔曼期望方程
  • 参考文献

一、马尔可夫决策过程

  马尔可夫决策过程(MDP)是马尔可夫奖励过程(MRP)的扩展,它引入了“动作”这一外界的影响因素,使得智能体能够主动选择行为,从而影响状态转移和奖励。MDP由状态集合、动作集合、折扣因子、奖励函数和状态转移函数构成。与MRP不同,MDP中的状态转移和奖励不仅取决于当前状态,还与智能体选择的动作相关。

  MDP的核心在于智能体与环境之间的持续交互:智能体根据当前状态选择一个动作,然后环境通过状态转移函数和奖励函数生成下一个状态和对应的奖励,并将这些反馈给智能体。智能体的目标是通过选择策略(即根据当前状态选择动作的规则)来最大化其累积奖励。MDP模型广泛应用于离散状态和动作空间的决策问题,而在状态空间为连续时,MDP仍然适用但需采用状态转移函数而非矩阵表示。

1.策略

  策略(Policy)是智能体在马尔可夫决策过程(MDP)中根据当前状态选择动作的规则。策略 π ( a ∣ s ) = P ( A t = a ∣ S t = s ) \pi (a|s)=P(A_{t}=a|S_{t}=s) π(as)=P(At=aSt=s) 可以是确定性策略或随机性策略。在确定性策略中,每个状态只对应一个确定的动作,即该动作的概率为1,其他动作的概率为0;在随机性策略中,每个状态对应一个关于动作的概率分布,智能体根据该分布随机选择动作。由于马尔可夫性质的存在,策略只与当前状态相关,不依赖于历史状态。策略决定了智能体在每个状态下的行为,从而影响其累积奖励的期望,因此与不同策略对应的状态价值函数也会不同。

2.状态价值函数

  状态价值函数(State Value Function)是用于评估一个智能体在特定策略下,从某一状态开始并持续采取该策略时,期望获得的累积奖励的函数,用 V π ( s ) V^{\pi}(s) Vπ(s) 表示基于策略 π \pi π 的状态价值函数。具体来说,它表示在给定状态下,智能体在未来遵循某策略时所能获得的所有奖励的期望值。状态价值函数是评估和比较不同状态的有用工具,可以帮助智能体选择最优策略,从而最大化累积奖励。

V π ( s ) = E π [ G t ∣ S t = s ] V^{\pi}(s)= \mathbb{E}_{\pi}[G_{t}|S_{t}=s] Vπ(s)=Eπ[GtSt=s]

3.动作价值函数

  动作价值函数(Action Value Function)是用于评估在特定策略下,智能体从某一状态执行某一动作后,期望获得的累积奖励的函数,用 Q π ( s , a ) Q^{\pi}(s,a) Qπ(s,a)表示基于策略 π \pi π 。它表示在给定状态和动作的条件下,智能体在未来继续遵循该策略所能获得的所有奖励的期望值。动作价值函数帮助智能体评估在某一状态下不同动作的优劣,从而选择最优动作来最大化累积奖励。

Q π ( s , a ) = E π [ G t ∣ S t = s , A t = a ] Q^{\pi}(s,a)= \mathbb{E}_{\pi}[G_{t}|S_{t}=s,A_{t}=a] Qπ(s,a)=Eπ[GtSt=s,At=a]

V π ( s ) = ∑ a ∈ A π ( a ∣ s ) Q π ( s , a ) V^{\pi}(s)= \sum_{a\in A}\pi (a|s)Q^{\pi}(s,a) Vπ(s)=aAπ(as)Qπ(s,a)

Q π ( s , a ) = r ( s , a ) + γ ∑ s ′ ∈ S P ( s ′ ∣ s , a ) V π ( s ′ ) Q^{\pi}(s,a)= r(s,a)+\gamma \sum_{s^{'}\in S} P (s^{'}|s,a)V^{\pi}(s^{'}) Qπ(s,a)=r(s,a)+γsSP(ss,a)Vπ(s)

4.贝尔曼期望方程

V π ( s ) = E π [ R t + γ V π ( S t + 1 ) ∣ S t = s ] = ∑ a ∈ A π ( a , s ) ( r ( a , s ) + γ ∑ s ′ ∈ S p ( s ′ ∣ s , a ) V π ( s ′ ) ) V^{\pi}(s)= \mathbb{E}_{\pi}[R_{t}+\gamma V^{\pi}(S_{t+1})|S_{t}=s] =\sum_{a \in A}\pi (a,s)(r(a,s)+\gamma \sum_{s^{'}\in S}p(s^{'}|s,a)V^{\pi} (s^{'})) Vπ(s)=Eπ[Rt+γVπ(St+1)St=s]=aAπ(a,s)(r(a,s)+γsSp(ss,a)Vπ(s))

Q π ( s , a ) = E π [ R t + γ Q π ( S t + 1 , A t + 1 ) ∣ S t = s , A t = a ] = r ( s , a ) + γ ∑ s ′ ∈ S p ( s ′ ∣ s , a ) ∑ a ′ ∈ A π ( a ′ , s ′ ) Q π ( s ′ , a ′ ) Q^{\pi}(s,a)= \mathbb{E}_{\pi}[R_{t}+\gamma Q^{\pi}(S_{t+1},A_{t+1})|S_{t}=s,A_{t}=a]=r(s,a)+\gamma \sum_{s^{'}\in S}p(s^{'}|s,a)\sum_{a^{'}\in A} \pi (a^{'},s^{'})Q^{\pi}(s^{'},a^{'}) Qπ(s,a)=Eπ[Rt+γQπ(St+1,At+1)St=s,At=a]=r(s,a)+γsSp(ss,a)aAπ(a,s)Qπ(s,a)

参考文献

[1] 动手学强化学习

[2] 强化学习(Reinforcement Learning)


http://www.kler.cn/a/285951.html

相关文章:

  • 【扩散模型(六)】IP-Adapter 是如何训练的?2 源码篇(IP-Adapter Plus)
  • 使用PostgreSQL的CLI客户端查询数据不显示问题
  • 计算机网络概述(协议层次与服务模型)
  • 爬虫引流推广使用IP
  • 公务员面试(c语言)
  • 【网络基础】探讨以太网:封装解包、MTU、MAC地址与碰撞
  • XR虚拟拍摄短剧 | 探索虚拟制作在短剧领域的应用与发展
  • 若依微服务ruoyi-auth在knife4j中不显示问题解决
  • .net dataexcel winform控件 更新 日志
  • JavaFX基本控件-Label
  • 概率论原理精解【10】
  • vscode c++和cuda开发环境配置
  • stm32-SD卡实验
  • 内存区域与内存溢出异常
  • flutter使用echarts
  • 优惠券的最佳利用策略:如何在Java代码中优化优惠券的使用
  • SpringSecurity Oauth2 - 密码模式完成身份认证获取令牌 [自定义UserDetailsService]
  • 9千含读音文件的中文汉语学习ACCESS\EXCEL数据库
  • 《JavaEE进阶》----6.<SpringMVC实践项目:【简易两整数加法计算器】>
  • 网络安全总结②