当前位置：首页 > article >正文

强化学习数学原理学习(一)

article 2024/10/27 4:24:45

前言

总之开始学!

正文

先从一些concept开始吧,有一个脉络比较好

state

首先是就是状态和状态空间,显而易见,不多说了

action

同理,动作和动作空间

state transition

状态转换,不多说

policy

策略,不多说

reward

奖励,不多说

MDP(马尔科夫)

这里需要注意到就是这个是无历史影响的

尾声

好啦,简单过一遍,结束

http://www.kler.cn/news/366780.html

相关文章：

基于SSM的BBS社区论坛系统源码

1U服务器和Hyper-V虚拟机使用记录

通过rancher2.7管理k8s1.24及1.24以上版本的k8s集群

如何通过企业架构蓝图引导企业实现数字化转型：构建与实施的全方位指南

用更多的钱买电脑而不是手机

Unity实现DBSCAN

golang开发alertmanagerWebhook,实现prometheus+alertmanagerWebhook告警

1.Linux按键驱动

AI绘画开源王者归来，Stable Diffusion 3.5 AI绘画模型开源发布

矩阵的可解性：关于Ax=b的研究

WeakHashMap详解

谷粒商城の订单服务分布式事务

京准电钟：NTP网络授时服务器应用航管自控系统

jmeter学习（6）逻辑控制器

【Python】Whoosh：全流程自建搜索引擎

【c++篇】：从基础到实践--c++内存管理技巧与模版编程基础

免费的CMS系统有哪些？

windows中的tracert命令

Apache Paimon介绍

IIS下FTP服务器的PASV端口范围修改方法

SQL 干货 | SQL 反连接

OBOO鸥柏丨液晶拼接大屏分布式基本管理系统架构显示技术曝光

python subproces模块

安装Maven配置以及构建Maven项目（2023idea）

智慧铜矿厂综合管控平台 | 图扑软件

计算机网络的主要知识点小结