强化学习的数学原理(七-3)TD算法总结
一、TD算法的统一表达
之前的所有能迭代策略的TD算法包括MC算法,都可以统一的表达为下面的形式:
TD算法的目的就是使向TD target 收敛。
Sarsa | |
Expected Sarsa | |
n-step Sarsa | |
Q-learning | |
MC | and |
二、TD算法求解的数学问题
除了Q-learning其他的TD算法都是把policy evaluation 与policy improvement结合以找到最优策略。而policy evaluation在求解以下的问题。
BE:求解贝尔曼公式;BOE:求解贝尔曼最优公式。
Sarsa | BE: |
Expected Sarsa | BE: |
n-step Sarsa | BE: |
Q-learning | BOE: |
MC | BE: and |