当前位置：首页 > article >正文

【强化学习入门笔记】3.2 策略梯度法:REINFORCE

article 2025/2/12 17:03:04

本系列为学习赵世钰老师的《强化学习的数学原理》所作的学习笔记.

课程视频网址：https://space.bilibili.com/2044042934

既然我们可以用函数拟合值函数, 那么是否可以直接拟合策略呢? 本节将介绍策略梯度法.

3.2.1 策略梯度法

3.2.1.1 策略表征

在之前的算法中, 我们的策略都是用离散表格的形式表达:

$\begin{array}{c|c|c|c|c|c}\hline & a_1 & a_2 & a_3 & a_4 & a_5 \\\hline s_1 & \pi\left(a_1 \mid s_1\right) & \pi\left(a_2 \mid s_1\right) & \pi\left(a_3 \mid s_1\right) & \pi\left(a_4 \mid s_1\right) & \pi\left(a_5 \mid s_1\right) \\\hline \vdots & \vdots & \vdots & \vdots & \vdots & \vdots \\\hline s_9 & \pi\left(a_1 \mid s_9\right) & \pi\left(a_2 \mid s_9\right) & \pi\left(a_3 \mid s_9\right) & \pi\left(a_4 \mid s_9\right) & \pi\left(a_5 \mid s_9\right) \\\hline\end{array}$

与值函数拟合类似的, 也可以通过一个函数来拟合它, 或者通过神经网络:

其中 $\theta$ 是拟合函数的参数. 显然, 可以通过梯度下降法求最优策略:

$\theta_{t+1}=\theta_t+\alpha \nabla_\theta J\left(\theta_t\right),$

既然是一个最优化问题, 首先需要定义评价最优策略的指标. 有以下两种方法.

3.2.1.2 评价最优策略的指标:平均状态值

基于策略 $\pi$ 的所以状态值的加权平均值, 其中 $d (s)$ 是状态的权重分布:

$\bar{v}_\pi=\sum_{s \in \mathcal{S}} d(s) v_\pi(s)=\mathbb{E}_{S \sim d}\left[v_\pi(S)\right]$

$d (s)$ 与状态值相互独立

此时我们可以简单的采用均匀分布 $/|\mathcal{S}|$ , 也可以只考虑某一个状态 $d_0\left(s_0\right)=1, \quad d_0\left(s \neq s_0\right)=0 .$

$d (s)$ 依赖于状态值

此时 $d (s)$ 是基于策略 $\pi$ 的静态分布 $d_\pi^T$ , $P_\pi$ 是状态转移概率分布

$d_\pi^T P_\pi=d_\pi^T,$

$d_\pi^T$ 被设计为:在马尔科夫决策过程中, 状态被探索到的概率.

总之 $\bar{v}_\pi$ 代表策略的平均状态值, 我们的目标是调整参数 $\theta$ , 让 $\bar{v}_\pi$ 尽可能的大. 接下来我们写出的等价形式:

$J(\theta)=\lim _{n \rightarrow \infty} \mathbb{E}\left[\sum_{t=0}^n \gamma^t R_{t+1}\right]=\mathbb{E}\left[\sum_{t=0}^{\infty} \gamma^t R_{t+1}\right]$

上式实际就是马尔科夫决策过程中完整的奖励期望, 将期望按照状态和权重逐个展开:

$\begin{aligned}\mathbb{E}\left[\sum_{t=0}^{\infty} \gamma^t R_{t+1}\right] & =\sum_{s \in \mathcal{S}} d(s) \mathbb{E}\left[\sum_{t=0}^{\infty} \gamma^t R_{t+1} \mid S_0=s\right] \\& =\sum_{s \in \mathcal{S}} d(s) v_\pi(s) \\& =\bar{v}_\pi\end{aligned}$

另一个较为简单的等价形式:

$\begin{aligned} \bar{v}_\pi&=d^T v_\pi \\ v_\pi & =\left[\ldots, v_\pi(s), \ldots\right]^T \in \mathbb{R}^{|\mathcal{S}|} \\d & =[\ldots, d(s), \ldots]^T \in \mathbb{R}^{|\mathcal{S}|}\end{aligned}$

3.2.1.3 评价最优策略的指标:平均奖励值

也可以用平均奖励值作为指标, 定义如下:

$\begin{aligned}\bar{r}_\pi & \doteq \sum_{s \in \mathcal{S}} d_\pi(s) r_\pi(s) \\& =\mathbb{E}_{S \sim d_\pi}\left[r_\pi(S)\right]\end{aligned}$

$d_\pi^T$ 同样是马尔科夫决策过程中, 状态被探索到的概率.

其中具体某一个状态s的奖励值定义为:

$r_\pi(s) \doteq \sum_{a \in \mathcal{A}} \pi(a \mid s, \theta) r(s, a)=\mathbb{E}_{A \sim \pi(s, \theta)}[r(s, A) \mid s]$

同样我们也可以写出它的两个等价形式, 首先当n趋近无穷时, 下式就是平均奖励值:

$\lim _{n \rightarrow \infty} \frac{1}{n} \mathbb{E}\left[\sum_{t=0}^{n-1} R_{t+1}\right]=\sum_{s \in \mathcal{S}} d_\pi(s) r_\pi(s)=\bar{r}_\pi .$

以及:

$\begin{aligned} &\bar{r}_\pi=\sum_{s \in \mathcal{S}} d_\pi(s) r_\pi(s)=d_\pi^T r_\pi \\ & r_\pi=\left[\ldots, r_\pi(s), \ldots\right]^T \in \mathbb{R}^{|\mathcal{S}|} \\& d_\pi=\left[\ldots, d_\pi(s), \ldots\right]^T \in \mathbb{R}^{|\mathcal{S}|}\end{aligned}$

实际上, 平均奖励值是平均状态值的一部分:

$\bar{r}_\pi=(1-\gamma) \bar{v}_\pi$

3.2.1.4 梯度计算

策略梯度定义如下:

$\nabla_\theta J(\theta)=\sum_{s \in \mathcal{S}} \eta(s) \sum_{a \in \mathcal{A}} \nabla_\theta \pi(a \mid s, \theta) q_\pi(s, a)$

其中 $\eta$ 是状态分布, $\nabla_\theta \pi$ 是基于参数 $\theta$ 的策略 $\pi$ . 上式还可以写成:

$\nabla_\theta J(\theta)=\mathbb{E}_{S \sim \eta, A \sim \pi(S, \theta)}\left[\nabla_\theta \ln \pi(A \mid S, \theta) q_\pi(S, A)\right]$

推导过程如下, 首先对下式求梯度:

$\nabla_\theta \ln \pi(a \mid s, \theta)=\frac{\nabla_\theta \pi(a \mid s, \theta)}{\pi(a \mid s, \theta)}$

然后将其代入到公式中, 即可推导出第二种形式:

$\begin{aligned}\nabla_\theta J(\theta) & =\sum_{s \in \mathcal{S}} \eta(s) \sum_{a \in \mathcal{A}} \nabla_\theta \pi(a \mid s, \theta) q_\pi(s, a) \\& =\mathbb{E}_{S \sim \eta}\left[\sum_{a \in \mathcal{A}} \nabla_\theta \pi(a \mid S, \theta) q_\pi(S, a)\right]\\ & =\mathbb{E}\left[\sum_{a \in \mathcal{A}} \pi(a \mid S, \theta) \nabla_\theta \ln \pi(a \mid S, \theta) q_\pi(S, a)\right] \\ & =\mathbb{E}_{S \sim \eta, A \sim \pi(S, \theta)}\left[\nabla_\theta \ln \pi(A \mid S, \theta) q_\pi(S, A)\right] . \end{aligned}$

3.2.2 蒙特卡洛策略梯度 (REINFORCE)

首先, 我们写出策略梯度的更新公式:

$\begin{aligned}\theta_{t+1} & =\theta_t+\alpha \nabla_\theta J\left(\theta_t\right) \\& =\theta_t+\alpha \mathbb{E}\left[\nabla_\theta \ln \pi\left(A \mid S, \theta_t\right) q_\pi(S, A)\right],\end{aligned}$

但是它的真实梯度期望是不知道的, 因此用随机梯度下降法, 用采样梯度代替:

$\theta_{t+1}=\theta_t+\alpha \nabla_\theta \ln \pi\left(a_t \mid s_t, \theta_t\right) q_t\left(s_t, a_t\right)$

其中采样 $q_t\left(s_t, a_t\right)$ 是 $q_\pi\left(s_t, a_t\right)$ 的近似, 如果使用蒙特卡洛估计动作值的方式, 即采样episode并计算discounted return. 那么这种方法就是REINFORCE.

接下来, 我们将详细的解释这个更新公式, 首先将梯度项展开:

$\nabla_\theta \ln \pi\left(a_t \mid s_t, \theta_t\right)=\frac{\nabla_\theta \pi\left(a_t \mid s_t, \theta_t\right)}{\pi\left(a_t \mid s_t, \theta_t\right)}$

将其中的常数项简写为 $\beta_t$ :

$\theta_{t+1}=\theta_t+\alpha \underbrace{\left(\frac{q_t\left(s_t, a_t\right)}{\pi\left(a_t \mid s_t, \theta_t\right)}\right)}_{\beta_t} \nabla_\theta \pi\left(a_t \mid s_t, \theta_t\right),$

(1) $\beta_t$ 影响策略概率的变化

因为这是一个梯度下降法的更新公式, 因此:

$\beta_t>0$ 时, $\pi\left(a_t \mid s_t, \theta_t\right)$ 会在此次更新变大, 即选择动作 $a_t$ 的概率变大
$\beta_t<0$ 时, $\pi\left(a_t \mid s_t, \theta_t\right)$ 会在此次更新变小, 即选择动作 $a_t$ 的概率变小