当前位置: 首页 > article >正文

强化学习核心概念与公式总结

强化学习核心概念与公式总结

1. 核心概念

1.1 智能体(Agent)和环境(Environment)

  • 智能体:学习和做决策的实体
  • 环境:智能体交互的外部系统

1.2 状态(State)

  • 描述环境在特定时刻的情况

1.3 动作(Action)

  • 智能体可以执行的操作

1.4 奖励(Reward)

  • 环境对智能体动作的即时反馈

1.5 策略(Policy)

  • 定义智能体在给定状态下应采取的动作

1.6 价值函数(Value Function)

  • 评估状态或动作的长期价值

1.7 Q函数(Q-function)

  • 特殊的价值函数,评估状态-动作对的价值

1.8 探索与利用(Exploration vs Exploitation)

  • 在尝试新动作和利用已知好动作之间取得平衡

1.9 回合(Episode)

  • 从初始状态到终止状态的完整交互序列

1.10 折扣因子(Discount Factor)

  • 决定未来奖励的重要性

2. 关键公式

2.1 策略(Policy)

确定性策略

a = π ( s ) a = \pi(s) a=π(s)

随机策略

π ( a ∣ s ) = P ( A t = a ∣ S t = s ) \pi(a|s) = P(A_t = a | S_t = s) π(as)=P(At=aSt=s)

2.2 价值函数(Value Function)

状态价值函数

V π ( s ) = E π [ ∑ k = 0 ∞ γ k R t + k + 1 ∣ S t = s ] V_\pi(s) = \mathbb{E}_\pi[\sum_{k=0}^{\infty} \gamma^k R_{t+k+1} | S_t = s] Vπ(s)=Eπ[k=0γkRt+k+1St=s]

动作价值函数(Q函数)

Q π ( s , a ) = E π [ ∑ k = 0 ∞ γ k R t + k + 1 ∣ S t = s , A t = a ] Q_\pi(s,a) = \mathbb{E}_\pi[\sum_{k=0}^{\infty} \gamma^k R_{t+k+1} | S_t = s, A_t = a] Qπ


http://www.kler.cn/a/331241.html

相关文章:

  • Rasa框架的优点和缺点
  • 用C#(.NET8)开发一个NTP(SNTP)服务
  • 项目代码第6讲:UpdownController.cs;理解 工艺/工序 流程、机台信息;前端的“历史 警报/工艺 记录”
  • Zabbix6.0升级为7.2
  • ShardingSphere第10讲:ShardingJDBC 在网络货运项目中的使用
  • 【C++读写.xlsx文件】OpenXLSX开源库在 Ubuntu 18.04 的编译、交叉编译与使用教程
  • 前端登录页面验证码
  • 事件相机(event camera)数据常见处理方法总结
  • 2023_Spark_实验九:编写WordCount程序(Scala版)
  • 在C#中使用Redis实现高效消息队列
  • 物理学基础精解【44】
  • [leetcode]674_最长连续递增序列
  • JavaScript实现接口请求的超时机制方法汇总
  • AIOps案例 | 历史库异常,如何快速响应与优化?
  • 【大数据入门 | Hive】Join语句
  • CSS 盒子属性
  • 霍夫曼树及其与B树和决策树的异同
  • 设计模式-生成器模式/建造者模式Builder
  • Python画笔案例-070 绘制通电棒棒
  • 这次PostgreSQL事故后,我把表膨胀清理工具撸了一遍
  • vulnhub-unknowndevice64 2靶机
  • 【MySQL】多表联合查询常见练习题
  • Vue3动态导入后端路由
  • 使用 Vue3 和 Axios 实现 CRUD 操作
  • Linux忘记root用户密码怎么重设密码
  • SpringCloud Config配置中心 SpringCloud Bus消息总线