强化学习入门
1 强化学习分类
1.1 是否理解环境
- 不理解环境 Model-free RL
a. 必须根据真实世界的反馈进行调整 - 理解环境 Model-based RL
a. 可以根据模型推理未来变化,不必依赖当前世界的反馈
1.2 概率/价值
- 基于概率 Policy-based
a. 输出每个动作的概率
b. Policy gradients - 基于价值 Value-based
a. 输出每个动作的价值
b. Q learning / Sarsa
1.3 回合/单步更新
- 回合更新 Monte-Carlo update
a. 游戏直到结束,才能更新一次 - 单步更新 Temporal-Difference update
a. 游戏每进行一步,就可以更新一次
1.4 在线/离线
- 在线学习
a. 走一步更新一步
b. Sarsa - 离线学习
a. 可以先存储知识,到一定步之后再更新
b. Q learning / Deep Q network
2 PPO与GRPO
去掉Value model(Critic model),无需额外的价值函数