当前位置: 首页 > article >正文

深入理解强化学习——马尔可夫决策过程:贝尔曼期望方程-[基础知识]

分类目录:《深入理解强化学习》总目录


我们可以把状态价值函数和动作价值函数拆解成两个部分:即时奖励和后续状态的折扣价值(Discounted Value of Successor State)。 通过对状态价值函数进行分解,我们就可以得到一个类似于之前马尔可夫奖励过程的贝尔曼方程——贝尔曼期望方程(Bellman Expectation Equation):
V π ( s ) = E π [ r t + 1 + γ V π ( s t + 1 ) ∣ s t = s ] V_\pi(s)=E_\pi[r_{t+1}+\gamma V_\pi(s_{t+1})|s_t=s] Vπ(s)=Eπ[rt+1+γVπ(st+1)st=s]

对于动作价值函数,我们也可以做类似的分解,得到动作价值函数的贝尔曼期望方程:
Q π ( s , a ) = E π [ r t + 1 + γ Q π ( s t + 1 , a t + 1 ) ∣ s t = s , a t = a ] Q_\pi(s, a)=E_\pi[r_{t+1}+\gamma Q_\pi(s_{t+1}, a_{t+1})|s_t=s, a_t=a] Qπ(s,a)=Eπ[rt+1+γQπ(st+1,at+1)st=s,at=a]

贝尔曼期望方程定义了当前状态与未来状态之间的关联。我们进一步进行简单的分解,可以得到:
V π ( s ) = ∑ a ∈ A π ( a ∣ s ) Q π ( s , a ) Q π ( s , a ) = R ( s , a ) + γ ∑ s ′ ∈ S p ( s ′ ∣ s , a ) V π ( s ′ ) \begin{aligned} V_\pi(s)&=\sum_{a\in A}\pi(a|s)Q_\pi(s, a)\\ Q_\pi(s, a)&=R(s, a)+\gamma\sum_{s'\in S}p(s'|s, a)V_\pi(s') \end{aligned} Vπ(s)Qπ(s,a)=aAπ(as)Qπ(s,a)=R(s,a)+γsSp(ss,a)Vπ(s)

上面两式就说明了状态价值函数与动作价值函数之间的关联,我们将上面两式中的上式带入下式或下式带入上式可以得到:
V π ( s ) = ∑ a ∈ A π ( a ∣ s ) ( R ( s , a ) + γ ∑ s ′ ∈ S p ( s ′ ∣ s , a ) V π ( s ′ ) ) Q π ( s , a ) = R ( s , a ) + γ ∑ s ′ ∈ S p ( s ′ ∣ s , a ) ∑ a ′ ∈ A π ( a ′ ∣ s ′ ) Q π ( s ′ , a ′ ) \begin{aligned} V_\pi(s)&=\sum_{a\in A}\pi(a|s)(R(s, a)+\gamma\sum_{s'\in S}p(s'|s, a)V_\pi(s'))\\ Q_\pi(s, a)&=R(s, a)+\gamma\sum_{s'\in S}p(s'|s, a)\sum_{a'\in A}\pi(a'|s')Q_\pi(s', a') \end{aligned} Vπ(s)Qπ(s,a)=aAπ(as)(R(s,a)+γsSp(ss,a)Vπ(s))=R(s,a)+γsSp(ss,a)aAπ(as)Qπ(s,a)

上面两式就是是贝尔曼期望方程的另一种形式,其中上面两式中的下式说明了当前时刻的动作价值函数与未来时刻的动作价值函数之间的关联。

参考文献:
[1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022.
[2] Richard S. Sutton, Andrew G. Barto. 强化学习(第2版)[M]. 电子工业出版社, 2019
[3] Maxim Lapan. 深度强化学习实践(原书第2版)[M]. 北京华章图文信息有限公司, 2021
[4] 王琦, 杨毅远, 江季. Easy RL:强化学习教程 [M]. 人民邮电出版社, 2022


http://www.kler.cn/a/145985.html

相关文章:

  • 风吹字符起,诗意Linux:一场指令与自由的浪漫邂逅(上)
  • 和优秀的人一起共事,你会越来越优秀!
  • 神经网络常见面试题
  • 21.1、网络设备安全概述
  • 2025年1月17日(点亮三色LED)
  • 【王树森搜素引擎技术】相关性03:文本匹配(TF-IDF、BM25、词距)
  • 初识数据结构
  • Java之API(上):Boolean
  • pygame加载图像,并让小球做平抛运动
  • 第十七周周报-王雲慧
  • MongoDB使用$literal获取表达式字面值
  • 案例030:基于微信小程序的英语学习交流平台
  • Spring Cache框架,实现了基于注解的缓存功能。
  • 【洛谷算法题】P5715-三位数排序【入门2分支结构】
  • Zynq-7000系列FPGA使用 Video Processing Subsystem 实现图像缩放,提供工程源码和技术支持
  • Nginx 学习笔记
  • 27. Spring源码篇之SpEL表达式之自定义解析模版
  • leetcode 最大整除子集
  • 【网络奇幻之旅】那年我与大数据的邂逅
  • VMWare虚拟机ubuntu克隆打不开
  • 如果客户端同时有ipv4和ipv6,浏览器是如何选择用哪种ip
  • Ubuntu20.04清理垃圾vscode缓存
  • ChatGPT初体验:注册、API Key获取与ChatAPI调用详解
  • RT-DETR论文阅读笔记(包括YOLO版本训练和官方版本训练)
  • PTA NeuDS-数据库题目集
  • 手把手教会你--渗透实战--Hack The Box-Starting Point-Meow--持续更新