当前位置：首页 > article >正文

强化学习------时序差分（Temporal-Difference Learning）

article 2025/2/22 5:35:24

简介

时序差分方法（Temporal-Difference Learning）简称TD算法是强化学习中非常经典的一种方法，Sarsa算法和Q-learning算法都是基于时序差分这种方法的。
强化学习分为基于模型和不基于模型的方法

基于模型的方法：是一种通过建立对环境的模型来预测状态和行动结果，然后基于这些预测来制定最优策略的方法在基于模型的强化学习中，智能体会尝试建立一个对环境的内部模型，该模型可以预测在给定状态下采取某个行动后可能产生的下一个状态，以及相应的奖励。这个内部模型可以是一个确定性模型，也可以是一个概率性模型。
不基于模型的方法：一种直接通过与环境的交互来学习最优策略的方法，而不依赖于对环境的内部模型的预测。在不基于模型的强化学习中，智能体通过与环境的交互来学习，观察采取不同行动后环境的反馈，并根据这些反馈来调整自己的策略。不基于模型的方法通常包括两个主要步骤：首先是通过与环境的交互来收集数据，然后使用这些数据来直接学习最优的策略。

总结来讲就是: 不基于模型,就基于数据

TD算法

TD算法是不基于模型的，即是基于数据的。

要的数据是什么呢？就是以下的数据：经验
在这里插入图片描述
就是策略 $\pi$ 产生的经验，即状态s、奖励r、下一状态s…这种序列。

TD算法的形式如下：
在这里插入图片描述

解释：
$v_t(s_t)$ 就是估计的state value值，state value的定义在贝尔曼方程中，可以翻看之前的文章进行查看。

首先 $v_{t+1}(s_t)$ 是对 $v_t(s_t)$ 的一个新的估计值，是由式子右边得到的。
$r_{t+1}+γv_t(s_(t+1))$ 叫做TD target，实际上是希望 $v_t(s_t)$ 朝着TD target方向进行调整，就是更加接近于TD target，之后我们会介绍原理。