当前位置：首页 > article >正文

强化学习（1）

article 2025/3/1 21:56:24

Reinforcement Learning

Goal-directed learing from ineraction with the environment.

1. Basic Element 基本元素

1.1 Agent 玩家

1.2 Environment

1.3 Goal

2. Main Element 主要元素

2.1 State

2.2 Action

状态与行为往复

2.3 Reward

目标：最大化总的奖励

3. Core Element 核心元素

3.1 Policy

当前状态采取怎样行动？策略函数！！！

3.2 Value

state value状态价值函数 -> 实数（将来所有奖励期望值）
state-action value状态行动价值函数 -> 实数
在这里插入图片描述

3. Trial and Error 试错 / Delayed Reward 延迟奖励

行动可能有价值无奖励

4. Exploitation 利用 / Exploration探索

利用价值最高行动

5. K-armed Bandit 多臂老虎机（不存在延迟奖励）

6. Error 误差，基于误差的学习方法

Sample Average(样本平均):
在这里插入图片描述

OOXX游戏

查看全文

http://www.kler.cn/a/460328.html

filament的材质系统

io多路复用, select, poll, epoll

计算机因进程结束导致白屏

MySQL的多表查询与事务

node.js之---EventEmitter 类

数据结构(哈希表)

如何在TikTok上成功推广国际品牌？

HTML——20 自定义属性

改进爬山算法之七：动态邻域爬山法（Dynamic Neighborhood Hill Climbing，DNHC）

【项目实战】Apache JMeter HTTP 接口测试

CP AUTOSAR标准之FlexRayDriver(AUTOSAR_SWS_FlexRayDriver)（更新中……）

ROS2+OpenCV综合应用--9. AprilTag标签码识别

深度学习中的迁移学习：如何利用现有模型加速训练？

Rust语言的数据库编程

按照人们阅读Excel习惯来格式化BigDecimal

头歌实训数据结构与算法-二叉树及其应用（第9关：二叉树的顺序存储及基本操作）

云电脑市场正在爆发！2025新风口出现了？

【QT】QT 的窗口坐标信号与槽

opencv实现KNN算法识别图片数字

网络基础入门到深入(3):网络协议-HTTP/S