当前位置: 首页 > article >正文

多智能体系统实现无直接通信协同

摘要:本文提出创新多智能体强化学习框架,通过对比学习构建全局共识,使智能体在没有直接通信的情况下实现协作行为。

近期,北京航空航天大学研究团队著作成果"Hierarchical Consensus-Based Multi-Agent Reinforcement Learning for Multi-Robot Cooperation Tasks"被机器人领域会议 IEEE/RSJ International Conference on Intelligent Robots and Systems(IROS 2024)接收。

研究团队提出了一种新的框架——基于分层共识的多智能体强化学习(Hierarchical Consensus-Based Multi-Agent Reinforcement Learning, HC-MARL),该框架通过对比学习构建全局共识,使智能体在没有直接通信的情况下实现协作行为。

NOKOV度量动作捕捉系统获取机器人集群的室内定位数据,助力验证HC-MARL框架在真实世界中的适用性。

引用格式

P. Feng, J. Liang, S. Wang, X. Yu, X. Ji, Y. Chen, K. Zhang, R. Shi, and W. Wu, “Hierarchical Consensus-Based Multi-Agent Reinforcement Learning for Multi-Robot Cooperation Tasks,” IROS 2024, https://doi.org/10.48550/arXiv.2407.08164.

研究背景

多智能体强化学习(MARL)近年来在人工智能领域引起了广泛关注,其核心思想是通过多个智能体的协同合作来解决复杂任务,这些任务通常单个智能体难以独立完成。然而MARL面临诸多挑战,特别是智能体之间的通信和协调。传统的集中训练与分散执行(Centralized Traning and Decentralized Execution, CTDE)框架存在缺乏全局共识、通信开销大、部分可观测性的局限,研究人员为了解决CTDE框架在多智能体协作任务中的局限性,创新地提出了HC-MARL框架,旨在显著提升多智能体系统在复杂协作任务中的性能。

本文贡献

  1. 分层共识机制:HC-MARL框架构建全局共识,引入了短期共识和长期共识,优化了即时反应和战略规划之间的平衡,通过分层共识机制,使智能体能够在不同任务需求下动态调整其决策过程。

  2. 自适应注意机制:HC-MARL框架通过自适应注意机制,动态调整各层共识的影响力,根据任务的具体需求优化智能体的决策过程。

  3. 兼容性:HC-MARL框架能够无缝集成到各种多智能体强化学习算法中,确保与CTDE范式兼容。这种设计原则使得HC-MARL框架在实际应用中具有广泛的适用性和灵活性。

实验过程

研究团队在Webots仿真环境中构建了三个合作任务:捕食者-猎物任务、集合任务和导航任务,旨在测试多智能体系统在不同协作场景下的表现。同时选择了MAPPO(Multi-Agent Proximal Policy Optimization)和HAPPO(Heterogeneous-Agent Proximal Policy Optimization)两种主流的多智能体强化学习算法作为基线进行对比,从而评估HC-MARL框架的性能。
实验中的模拟任务:(a)捕食者-猎物任务(b)集合任务(c)导航任务
为了验证HC-MARL框架的实际应用效果,研究团队在E-puck机器人集群上进行了实验。实验使用了NOKOV度量动作捕捉系统进行室内定位,并在捕食者-猎物、集合和导航任务中进行了测试。结果如下:

在捕食者-猎物任务中,HC-MARL算法比MAPPO减少了16%的步数,比HAPPO减少了19%的步数。

在集合任务中,HC-MARL算法比MAPPO减少了10%的步数,比HAPPO减少了15%的步数。

在导航任务中,HC-MARL算法比MAPPO减少了30%的行驶距离,比HAPPO减少了34%的行驶距离,且没有发生任何碰撞。
导航任务示意,左侧是真实世界环境,右侧是Webots仿真环境
这些结果表明,HC-MARL框架在实际应用中同样表现出色,显著提高了多智能体系统的任务效率和协作能力。通过引入分层共识机制和自适应注意机制,HC-MARL框架能够在不同任务场景下动态调整智能体的决策过程,从而实现更高效的协作。

NOKOV度量动作捕捉系统获取机器人集群的室内定位数据,助力验证HC-MARL框架在真实世界中的适用性。

作者介绍

冯埔,北京航空航天大学计算机学院,博士研究生。主要研究方向:多智能体强化学习、知识内嵌强化学习、群体机器人和多智能体路径规划。

梁俊康,北京航空航天大学人工智能学院,硕士研究生。主要研究方向:多智能体强化学习。

王思泽,北京航空航天大学人工智能学院,硕士研究生。主要研究方向:多智能体强化学习和多智能体路径规划。

于鑫,北京航空航天大学计算机学院,博士研究生。主要研究方向:多智能体强化学习、大模型。

石荣晔,北京航空航天大学,副教授。主要研究方向:领域知识内嵌人工智能算法、物理信息神经网络、多智能体系统、强化学习及其在智慧城市领域的应用。

吴文峻,北京航空航天大学,教授,博士生导师。主要研究方向:群体智能与多智能体系统、认知建模与智能导学、智能云服务、智能软件工程等领域。


http://www.kler.cn/a/396081.html

相关文章:

  • 《FreeRTOS任务控制块篇》
  • 动态规划-背包问题——[模版]完全背包问题
  • spring boot整合https协议
  • layui.all.js:2 Uncaught Error: Syntax error, unrecognized expression
  • 低代码牵手 AI 接口:开启智能化开发新征程
  • aws-athena查询语句总结
  • Casio推出情感AI宠物机器人Moflin
  • 前后端交互之动态列
  • [CKS] 使用ingress公开https服务
  • 【大模型实战篇】vLLM的由来以及大模型部署、推理加速实践
  • 跨域 总 结 CORS
  • Linux服务器搭建SVN
  • 基于图像处理与机器学习的车牌检测识别系统设计与实现
  • 厦大南洋理工最新开源,一种面向户外场景的特征-几何一致性无监督点云配准方法
  • PyCharm 中的【控制台】和【终端】的区别
  • QT中使用图表之QChart绘制饼图
  • 论文阅读 - Causally Regularized Learning with Agnostic Data Selection
  • 【异常记录】Junitmock之InvalidUseOfMatchersException异常
  • Tomcat 8.5 源码导读
  • 汇编案例 之 HEX到ASCII码的转换
  • 超越传统:探索ONLYOFFICE的革命性办公新纪元
  • 【大模型】prompt实践总结
  • Android setTheme设置透明主题无效
  • ⾃动化运维利器Ansible-基础
  • 如何修改npm包
  • [基础] 003 使用github提交作业