当前位置: 首页 > article >正文

Reinforcement learning 强化学习

通过智能体(Agent)与环境(Environment)的交互来学习最优策略,以最大化累积奖励。其核心思想是通过试错和反馈机制来优化决策。

核心要素是状态、动作、奖励、折扣系数、累积奖励、价值函数

state-action value function状态-动作价值函数

处于某个状态时,执行某个动作的价值期望,因此在该状态时选择价值期望值最高的动作,如下图:

Bellman equation 贝尔曼方程

continuous state spaces 连续状态空间

DQN (Deep Q Network) 深度Q网络

结合深度学习,使用神经网络近似Q函数

优化版本

输出层,一次输出四种action对应的Q值,而不是每个action过一次模型

ε-Greedy Policy

优化算法,设置一定的随机性

算法优化

Mini-batch 小批量

每个迭代轮次使用一部分样本,监督学习和强化学习都可以使用

soft update

减缓参数更新幅度,主要用于强化学习,可以使强化学习更可靠

缺点

原文地址:https://blog.csdn.net/djl806943371/article/details/145369796
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.kler.cn/a/522480.html

相关文章:

  • 基于Java的远程视频会议系统(源码+系统+论文)
  • 网站快速收录策略:提升爬虫抓取效率
  • Spatial Branching for Conic Non-Convexities in Optimal Electricity-Gas Flow
  • 活动预告 |【Part1】Microsoft Azure 在线技术公开课:基础知识
  • DeepSeek之Win10系统部署教程
  • 【开发日记】Uniapp对指定DOM元素截长图
  • 【Elasticsearch】脚本查询需要字段时使用的docValues结构吗?
  • CSS中的响应式布局初识
  • 【Super Tilemap Editor使用详解】(十六):高级主题:深入理解 Super Tilemap Editor
  • CVE-2020-0796永恒之蓝2.0(漏洞复现)
  • 智慧校园在职业学校的实施与展望
  • 动态规划——斜率优化DP
  • 力扣111二叉树的最小深度(DFS)
  • three.js+WebGL踩坑经验合集(4.2):为什么不在可视范围内的3D点投影到2D的结果这么不可靠
  • 改进候鸟优化算法之三:引入自适应策略的候鸟优化算法(AS-MBO)
  • powershell和linux各自一个简单易懂的小demo, to be modified.
  • 某公交管理系统简易逻辑漏洞+SQL注入挖掘
  • java求职学习day18
  • echo ‘export PATH=/usr/local/bin:$PATH‘ >> ~/.bashrc这个和直接添加到/etc/profile有什么区别
  • 2025美国大学生数学建模竞赛美赛E题成品参考论文(48页)(含模型,可运行代码,求解结果)
  • 代码随想录算法训练营第三十七天-动态规划-完全背包-377. 组合总和 Ⅳ
  • 使用 PyTorch 实现逻辑回归:从数据到模型保存与加载
  • 家政预约小程序11分类展示
  • 【Elasticsearch】doc_values
  • UDP/TCP ④-延时应答 || 捎带应答 || 粘包问题 || 异常处理
  • pycharm光标变成白格子 黑格子