深入理解强化学习——马尔可夫决策过程:贝尔曼期望方程-[基础知识]
分类目录:《深入理解强化学习》总目录
我们可以把状态价值函数和动作价值函数拆解成两个部分:即时奖励和后续状态的折扣价值(Discounted Value of Successor State)。 通过对状态价值函数进行分解,我们就可以得到一个类似于之前马尔可夫奖励过程的贝尔曼方程——贝尔曼期望方程(Bellman Expectation Equation):
V
π
(
s
)
=
E
π
[
r
t
+
1
+
γ
V
π
(
s
t
+
1
)
∣
s
t
=
s
]
V_\pi(s)=E_\pi[r_{t+1}+\gamma V_\pi(s_{t+1})|s_t=s]
Vπ(s)=Eπ[rt+1+γVπ(st+1)∣st=s]
对于动作价值函数,我们也可以做类似的分解,得到动作价值函数的贝尔曼期望方程:
Q
π
(
s
,
a
)
=
E
π
[
r
t
+
1
+
γ
Q
π
(
s
t
+
1
,
a
t
+
1
)
∣
s
t
=
s
,
a
t
=
a
]
Q_\pi(s, a)=E_\pi[r_{t+1}+\gamma Q_\pi(s_{t+1}, a_{t+1})|s_t=s, a_t=a]
Qπ(s,a)=Eπ[rt+1+γQπ(st+1,at+1)∣st=s,at=a]
贝尔曼期望方程定义了当前状态与未来状态之间的关联。我们进一步进行简单的分解,可以得到:
V
π
(
s
)
=
∑
a
∈
A
π
(
a
∣
s
)
Q
π
(
s
,
a
)
Q
π
(
s
,
a
)
=
R
(
s
,
a
)
+
γ
∑
s
′
∈
S
p
(
s
′
∣
s
,
a
)
V
π
(
s
′
)
\begin{aligned} V_\pi(s)&=\sum_{a\in A}\pi(a|s)Q_\pi(s, a)\\ Q_\pi(s, a)&=R(s, a)+\gamma\sum_{s'\in S}p(s'|s, a)V_\pi(s') \end{aligned}
Vπ(s)Qπ(s,a)=a∈A∑π(a∣s)Qπ(s,a)=R(s,a)+γs′∈S∑p(s′∣s,a)Vπ(s′)
上面两式就说明了状态价值函数与动作价值函数之间的关联,我们将上面两式中的上式带入下式或下式带入上式可以得到:
V
π
(
s
)
=
∑
a
∈
A
π
(
a
∣
s
)
(
R
(
s
,
a
)
+
γ
∑
s
′
∈
S
p
(
s
′
∣
s
,
a
)
V
π
(
s
′
)
)
Q
π
(
s
,
a
)
=
R
(
s
,
a
)
+
γ
∑
s
′
∈
S
p
(
s
′
∣
s
,
a
)
∑
a
′
∈
A
π
(
a
′
∣
s
′
)
Q
π
(
s
′
,
a
′
)
\begin{aligned} V_\pi(s)&=\sum_{a\in A}\pi(a|s)(R(s, a)+\gamma\sum_{s'\in S}p(s'|s, a)V_\pi(s'))\\ Q_\pi(s, a)&=R(s, a)+\gamma\sum_{s'\in S}p(s'|s, a)\sum_{a'\in A}\pi(a'|s')Q_\pi(s', a') \end{aligned}
Vπ(s)Qπ(s,a)=a∈A∑π(a∣s)(R(s,a)+γs′∈S∑p(s′∣s,a)Vπ(s′))=R(s,a)+γs′∈S∑p(s′∣s,a)a′∈A∑π(a′∣s′)Qπ(s′,a′)
上面两式就是是贝尔曼期望方程的另一种形式,其中上面两式中的下式说明了当前时刻的动作价值函数与未来时刻的动作价值函数之间的关联。
参考文献:
[1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022.
[2] Richard S. Sutton, Andrew G. Barto. 强化学习(第2版)[M]. 电子工业出版社, 2019
[3] Maxim Lapan. 深度强化学习实践(原书第2版)[M]. 北京华章图文信息有限公司, 2021
[4] 王琦, 杨毅远, 江季. Easy RL:强化学习教程 [M]. 人民邮电出版社, 2022