当前位置: 首页 > article >正文

深入理解强化学习——强化学习的历史:近代强化学习的发展

分类目录:《深入理解强化学习》总目录


在《深入理解强化学习——强化学习的历史》前面的文章中我们讨论了最优控制和试错学习学习的思想,接下来,我们将讨论一些在20世纪60年代和70年代,在试错学习计算和理论研究被相对忽视的时候,出现的一些例外情况。其中的一个例外是新西兰研究人员J.hn Andreae的工作。Andreae开发了一个叫作STeLLA的系统,它通过与环境的互动中的试错来学习。这个系统包括了关于环境的内部模型和后来开发的一个用来处理隐藏状态问题的“内心独白"模块。Andreae后来的工作虽然更强调从老师那儿学习,但仍然包括了很多反复试错,并且系统的目标之一就是产生创造性的新事件。这个工作的一个特性被称为“回流过程",在Andreae中有详细描述,其提供了一个类似于我们前面提及的反向回溯更新的功劳分配机制。不幸的是,他的开创性研究并不为人所知,也没有对后来的强化学习研究产生重大影响。

比较有影响力的是Donal Michie的工作。在1961年和1963年,他描述了一个叫MENACE(Matchbox EducabIe Naughts and Crosses Engine)的简单试错学习系统,用来学习如何玩井字棋游戏。这个系统由对应于每个井字棋位置的火柴盒构成,每个火柴盒内含有许多彩色珠子,每一种不同颜色代表一种可能的移动方式。通过从当前游戏位置的火柴盒里随机拿一个珠子,就可以确定MENACE的移动。当游戏结束时,我们会往曾经使用过的盒子里增加珠子或减少珠子,以此来强化或惩罚MENACE的决策。Michie和Chambers描述了另一种叫GLEE(Game LearningExpectimaxing Engine)的井字棋强化学习机和一个叫BOXES的强化学习控制器。他们采用BOXES使得一根杆子可以在一个可移动的小车上保持平衡,这一系统就是在失败信号的基础上工作的一一一当杆子倒下或车到达终点时,会有失败信号发出从而帮助系统学习。这项任务是根据Widrow和Smith早期的工作改编而来的,他们采用有监督学习的方法,假设老师的指导己经能保持杆子平衡。Michie和Chambers版的杆子平衡实验是在不具备完全知识的条件下强化学习最出色的早期例子之一。包括我们自己的一些研究在内,它影响了许多后来强化学习的工作。Michie一直在不断强调试错学习作为人工智能领域基本部分的重要性。

Widrow、Gupta和Maitra修改了Widrow和Hoff的最小均方误差(Least-Mean-Square,LMS)算法,以建立一种强化学习规则,其可以从成功和失败信号中而不是从训练例子中学习。他们称这种学习形式为“选择性引导适应”,并将其描述为“向评论家学习",而不是“向老师学习"。他们分析了这条规则,并展示了如何学会玩二十一点纸牌游戏。这是Widrow对强化学习研究的一次单独的尝试,他本人对有监督学习的贡献在学界更有影响力。我们使用的“评判器"(critic)这个术语就是从Widrow、Gupta和Maitra的论文中衍生出来的。Buchanan、Mitchell、Smith和Johnson在机器学习文章中独立使用了“评判器"这个术语,但对他们来说,评判器不止可以做性能评估,它是一个有更多用处的专家系统。

参考文献:
[1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022.
[2] Richard S. Sutton, Andrew G. Barto. 强化学习(第2版)[M]. 电子工业出版社, 2019
[3] Maxim Lapan. 深度强化学习实践(原书第2版)[M]. 北京华章图文信息有限公司, 2021
[4] 王琦, 杨毅远, 江季. Easy RL:强化学习教程 [M]. 人民邮电出版社, 2022


http://www.kler.cn/a/104963.html

相关文章:

  • 0037【Edabit ★☆☆☆☆☆】【修改Bug 2】Buggy Code (Part 2)
  • k8s 1.28版本:使用StorageClass动态创建PV,SelfLink 问题修复
  • HarmonyOS鸿蒙原生应用开发设计- 华为分享图标
  • Vue3中的v-model
  • docker自动构建jar镜像,自动发布最新镜像的简单shell脚本
  • 【码银送书第九期】《ChatGPT 驱动软件开发:AI 在软件研发全流程中的革新与实践》
  • 【CMN】Power management
  • 【深度学习实验】循环神经网络(五):基于GRU的语言模型训练(包括自定义门控循环单元GRU)
  • 26装饰器3(在面向对象的过程中使用装饰器)
  • 墨西哥专线大型工程设备海运
  • 0基础学习PyFlink——使用Table API实现SQL功能
  • uniapp实现登录组件之外区域置灰并引导登录
  • 从零开始 Spring Cloud 15:多级缓存
  • 16 用于NOMA IoT网络上行链路安全速率最大化的HAP和UAV协作框架
  • [Python从零到壹] 七十二.图像识别及经典案例篇之OpenGL入门及绘制基本图形和3D图
  • https下载图片
  • 强化学习问题(7)--- Python和Pytorch,Tensorflow的版本对应
  • 腾讯云创建了jenkins容器,但无法访问
  • Hadoop3.0大数据处理学习4(案例:数据清洗、数据指标统计、任务脚本封装、Sqoop导出Mysql)
  • torch张量的降维与升维