强化学习,第 5 部分:时间差异学习
目录
一、介绍
1.1 关于强化学习
1.2 关于此文章
二、算法思路
2.1 时间序列
2.2 举个例子
三、Constant-α 蒙特卡洛
3.1 一步式 TD
3.2 比较
四、算法变体
4.1 Sarsa
4.2 Q-学习
4.3 预期 SARSA
五、最大化偏差
5.1 最大偏差
5.2 例
六、双重学习
6.1 算法思路
6.2 例
七、结论
一、介绍
1.1 关于强化学习
R
目录
一、介绍
1.1 关于强化学习
1.2 关于此文章
二、算法思路
2.1 时间序列
2.2 举个例子
三、Constant-α 蒙特卡洛
3.1 一步式 TD
3.2 比较
四、算法变体
4.1 Sarsa
4.2 Q-学习
4.3 预期 SARSA
五、最大化偏差
5.1 最大偏差
5.2 例
六、双重学习
6.1 算法思路
6.2 例
七、结论
R