Reinforcement learning 强化学习
通过智能体(Agent)与环境(Environment)的交互来学习最优策略,以最大化累积奖励。其核心思想是通过试错和反馈机制来优化决策。
核心要素是状态、动作、奖励、折扣系数、累积奖励、价值函数
state-action value function状态-动作价值函数
处于某个状态时,执行某个动作的价值期望,因此在该状态时选择价值期望值最高的动作,如下图:
Bellman equation 贝尔曼方程
continuous state spaces 连续状态空间
DQN (Deep Q Network) 深度Q网络
结合深度学习,使用神经网络近似Q函数
优化版本
输出层,一次输出四种action对应的Q值,而不是每个action过一次模型
ε-Greedy Policy
优化算法,设置一定的随机性
算法优化
Mini-batch 小批量
每个迭代轮次使用一部分样本,监督学习和强化学习都可以使用
soft update
减缓参数更新幅度,主要用于强化学习,可以使强化学习更可靠
缺点
原文地址:https://blog.csdn.net/djl806943371/article/details/145369796
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.kler.cn/a/522480.html 如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.kler.cn/a/522480.html 如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!