当前位置: 首页 > article >正文

强化学习(1)

Reinforcement Learning

Goal-directed learing from ineraction with the environment.

1. Basic Element 基本元素

1.1 Agent 玩家

1.2 Environment

1.3 Goal

2. Main Element 主要元素

2.1 State

2.2 Action

状态与行为往复

2.3 Reward

目标:最大化总的奖励

3. Core Element 核心元素

3.1 Policy

当前状态采取怎样行动?策略函数!!!

3.2 Value

state value状态价值函数 -> 实数(将来所有奖励期望值)
state-action value状态行动价值函数 -> 实数
在这里插入图片描述

3. Trial and Error 试错 / Delayed Reward 延迟奖励

行动可能有价值无奖励

4. Exploitation 利用 / Exploration探索

利用价值最高行动

5. K-armed Bandit 多臂老虎机(不存在延迟奖励)

6. Error 误差,基于误差的学习方法

Sample Average(样本平均):
在这里插入图片描述
在这里插入图片描述
OOXX游戏


http://www.kler.cn/a/460328.html

相关文章:

  • 黑马JavaWeb开发跟学(十五).Maven高级
  • 高频java面试题
  • 跳转至系统设置下某个子模块 - 鸿蒙 Harmony
  • 游戏引擎学习第69天
  • Python 将文字和二维码 生成到BMP上 可以做标签打印等
  • “大数据+职业本科”:VR虚拟仿真实训室的发展前景
  • filament的材质系统
  • io多路复用, select, poll, epoll
  • 计算机因进程结束导致白屏
  • MySQL的多表查询与事务
  • node.js之---EventEmitter 类
  • 数据结构(哈希表)
  • 如何在TikTok上成功推广国际品牌?
  • HTML——20 自定义属性
  • 改进爬山算法之七:动态邻域爬山法(Dynamic Neighborhood Hill Climbing,DNHC)
  • 【项目实战】Apache JMeter HTTP 接口测试
  • CP AUTOSAR标准之FlexRayDriver(AUTOSAR_SWS_FlexRayDriver)(更新中……)
  • ROS2+OpenCV综合应用--9. AprilTag标签码识别
  • 深度学习中的迁移学习:如何利用现有模型加速训练?
  • Rust语言的数据库编程
  • 按照人们阅读Excel习惯来格式化BigDecimal
  • 头歌实训数据结构与算法-二叉树及其应用(第9关:二叉树的顺序存储及基本操作)
  • 云电脑市场正在爆发!2025新风口出现了?
  • 【QT】QT 的窗口坐标 信号与槽
  • opencv实现KNN算法识别图片数字
  • 网络基础入门到深入(3):网络协议-HTTP/S