当前位置：首页 > article >正文

再读强化学习24March

article 2025/3/26 0:05:38

25March Update:

初始化策略：看山是山，看水是水

多轮策略评价与策略更新：看山不是山，看水不是水

收敛：山就是山，水就是水

————————————————————————————————

书还是得读，常读常新，螺旋式上升。

强化学习的本质是通过试错调整行为获得最大化的奖励。这句话太抽象太泛了，或许也可以理解为如何找到一个最优（多快好省）的方法去实现我们的目的（最大化奖励）。

比较朴素的想法就是干中学，把能做的先全试一遍，发现哪个方法好使就用哪个，同时我们也会尝试新鲜方法看是不是更好，这个思路类似e-greedy和ucb（upper confidence bound)算法，通过不断尝试得到每个方法对实现最终目的有多大帮助。

但是遇到复杂的问题这些算法就有些局限了，比如我们想要得到世俗意义上的成功，这是一个长时间规划的问题，为了实现这个目的，我们需要选择一条最优路径。为了实现这个目的，我们需要决定每个人生阶段需要达到的最佳目标：重点高中->重点大学->头部公司->高职级->事业有成，一一实现达到事业有成的目标。这种思路类似动态规划，将一个大问题分解多个子问题，假设所有局部阶段达到最优结果就可以保证最终结果是最优的。那么我们如何把这个过程具体化，如何决策/选择，在强化学习中就是把动态规划这个方法论数学化，落实到一个具体的形式，这个形式就是bellman equation（贝尔曼方程）。同时这个方法是基于markov property（马尔科夫性质）：下一个状态只取决于当前的状态。这个假设很好理解，我们现在的状态是过往所有的状态叠加的结果，就像找工作时候简历没必要写全自己过往十几年的经历。贝尔曼方程是针对于MRP（马尔科夫奖励过程），从一个状态转移到下一个状态是固定的，比如我们进入重点高中进入重点大学的概率是100%，不考虑动作action（人为）。但是这是不可能的，于是为了更加贴近真实，引入了动作action，即使进入了普通高中，通过选择努力学习这个动作也有很大概率进入重点大学，这样MRP就变成了MDP（马尔科夫决策过程），这个时候就出现了如何选择动作的问题，选择一个最有效的action进入到下一个最优的state，这时候贝尔曼方程就进一步引入动作概率并泛化为贝尔曼期望方程，最优的策略可以隐式（implicitly)表达为贝尔曼最优方程。

但是动态规划是有一个假设，假设我们已知全部的状态转移函数和对应奖励。类似于经验丰富的长辈为我们规划最好的人生轨迹。但是人生是旷野，也不是每个人都有丰富人生阅历的长辈，这个时候状态转移函数和对应奖励是很难量化/显示表达。这种时候我们就需要时序差分算法了，也就从model-based RL进入了model-free RL。

查看全文

http://www.kler.cn/a/600220.html