当前位置：首页 > article >正文

强化学习核心概念与公式总结

article 2025/4/2 16:31:10

强化学习核心概念与公式总结

1. 核心概念

1.1 智能体(Agent)和环境(Environment)

智能体：学习和做决策的实体
环境：智能体交互的外部系统

1.2 状态(State)

描述环境在特定时刻的情况

1.3 动作(Action)

智能体可以执行的操作

1.4 奖励(Reward)

环境对智能体动作的即时反馈

1.5 策略(Policy)

定义智能体在给定状态下应采取的动作

1.6 价值函数(Value Function)

评估状态或动作的长期价值

1.7 Q函数(Q-function)

特殊的价值函数，评估状态-动作对的价值

1.8 探索与利用(Exploration vs Exploitation)

在尝试新动作和利用已知好动作之间取得平衡

1.9 回合(Episode)

从初始状态到终止状态的完整交互序列

1.10 折扣因子(Discount Factor)

决定未来奖励的重要性

2. 关键公式

2.1 策略(Policy)

确定性策略

$\pi(s)$

随机策略

$\pi(a|s) = P(A_t = a | S_t = s)$

2.2 价值函数(Value Function)

状态价值函数

$V_\pi(s) = \mathbb{E}_\pi[\sum_{k=0}^{\infty} \gamma^k R_{t+k+1} | S_t = s]$

动作价值函数(Q函数)

$Q_\pi(s,a) = \mathbb{E}_\pi[\sum_{k=0}^{\infty} \gamma^k R_{t+k+1} | S_t = s, A_t = a]$

查看全文

http://www.kler.cn/a/331241.html

前端登录页面验证码

事件相机（event camera）数据常见处理方法总结

2023_Spark_实验九：编写WordCount程序（Scala版）

在C#中使用Redis实现高效消息队列

物理学基础精解【44】

[leetcode]674_最长连续递增序列

JavaScript实现接口请求的超时机制方法汇总

AIOps案例 | 历史库异常，如何快速响应与优化？

【大数据入门 | Hive】Join语句

CSS 盒子属性

霍夫曼树及其与B树和决策树的异同

设计模式-生成器模式/建造者模式Builder

Python画笔案例-070 绘制通电棒棒

这次PostgreSQL事故后，我把表膨胀清理工具撸了一遍

vulnhub-unknowndevice64 2靶机

【MySQL】多表联合查询常见练习题

Vue3动态导入后端路由

使用 Vue3 和 Axios 实现 CRUD 操作

Linux忘记root用户密码怎么重设密码

SpringCloud Config配置中心 SpringCloud Bus消息总线

强化学习核心概念与公式总结

1. 核心概念

1.1 智能体(Agent)和环境(Environment)

1.2 状态(State)

1.3 动作(Action)

1.4 奖励(Reward)

1.5 策略(Policy)

1.6 价值函数(Value Function)

1.7 Q函数(Q-function)

1.8 探索与利用(Exploration vs Exploitation)

1.9 回合(Episode)

1.10 折扣因子(Discount Factor)

2. 关键公式

2.1 策略(Policy)

确定性策略

随机策略

2.2 价值函数(Value Function)

状态价值函数

动作价值函数(Q函数)

相关文章：