当前位置: 首页 > article >正文

​‌马尔可夫决策过程-笔记

【详解+推导!!】马尔可夫决策过程-CSDN博客

# MDP是RL的理论基础


 

马尔可夫决策过程(Markov Decision Process, MDP)是序贯决策的数学模型,用于在系统状态具有马尔可夫性质的环境中模拟智能体可实现的随机性策略与回报‌。MDP得名于俄国数学家安德雷·马尔可夫,以纪念其对马尔可夫链的研究。‌

基本概念和要素

MDP基于一组交互对象,即智能体和环境进行构建,所具有的要素包括:

  • 状态(States)‌:环境的状态集合。
  • 动作(Actions)‌:智能体在每个状态下可以采取的动作集合。
  • 策略(Policies)‌:定义了智能体在给定状态下选择动作的方式。
  • 奖励(Rewards)‌:智能体执行动作后获得的即时奖励。

理论基础和应用场景

MDP的理论基础是马尔可夫链,因此也被视为考虑了动作的马尔可夫模型。在离散时间上建立的MDP被称为“离散时间马尔可夫决策过程”,反之则被称为“连续时间马尔可夫决策过程”。MDP存在一些变体,包括部分可观察马尔可夫决策过程、约束马尔可夫决策过程和模糊马尔可夫决策过程。

在机器学习和强化学习中的应用

在应用方面,MDP被用于机器学习中强化学习问题的建模。通过使用动态规划、随机采样等方法,MDP可以求解使回报最大化的智能体策略,并在自动控制、推荐系统等主题中得到应用。

数学表示和计算方法

MDP可以用五元组表示:<S, A, P, R, γ>,其中:

  • S 表示状态集合。
  • A 表示动作集合。
  • P 表示状态转移概率矩阵。
  • R 表示奖励函数。
  • γ 表示折扣因子,范围在 0 到 1 之间。

Bellman等式‌是强化学习中的基础,其基本思想是使用迭代的思想,将状态值函数分解为即时奖励和未来状态值函数的加权和。通过Bellman等式,可以迭代计算每个状态的值函数,从而找到最优策略。


http://www.kler.cn/a/525961.html

相关文章:

  • Vue.js组件开发-实现全屏平滑移动、自适应图片全屏滑动切换
  • NLP自然语言处理通识
  • PyTorch 快速入门
  • Ubuntu-手动安装 SBT
  • 【重生之我在学习C语言指针详解】
  • Ubuntu20.04 磁盘空间扩展教程
  • 基于微信小程序的医院预约挂号系统设计与实现(LW+源码+讲解)
  • Python中的函数(下)
  • Node.js 的底层原理
  • 【Node.js】Koa2 整合接口文档
  • 付费进群阿泽魔改源码 跳转不卡顿
  • 剑指 Offer II 009. 乘积小于 K 的子数组
  • HarmonyOS应用开发快速入门
  • 一种用于低成本水质监测的软传感器开源方法:以硝酸盐(NO3⁻)浓度为例
  • 知识管理系统塑造企业文化与学习型组织的变革之路
  • 再写最长上升子序列(简单dp)
  • Python 列表(组织列表)
  • linux——进程树的概念和示例
  • 力扣-数组-59 螺旋矩阵Ⅱ
  • 数据结构 队列
  • 深度大数据:从数据洪流到智能决策的革命性跨越
  • php接口连接数据库
  • 【狂热算法篇】探秘图论之Dijkstra 算法:穿越图的迷宫的最短路径力量(通俗易懂版)
  • Vue3的el-table-column增加跳转其他页面
  • 模型I/O功能之模型包装器
  • LeetCode题练习与总结:最长和谐子序列--594