多智能体系统实现无直接通信协同
摘要:本文提出创新多智能体强化学习框架,通过对比学习构建全局共识,使智能体在没有直接通信的情况下实现协作行为。
近期,北京航空航天大学研究团队著作成果"Hierarchical Consensus-Based Multi-Agent Reinforcement Learning for Multi-Robot Cooperation Tasks"被机器人领域会议 IEEE/RSJ International Conference on Intelligent Robots and Systems(IROS 2024)接收。
研究团队提出了一种新的框架——基于分层共识的多智能体强化学习(Hierarchical Consensus-Based Multi-Agent Reinforcement Learning, HC-MARL),该框架通过对比学习构建全局共识,使智能体在没有直接通信的情况下实现协作行为。
NOKOV度量动作捕捉系统获取机器人集群的室内定位数据,助力验证HC-MARL框架在真实世界中的适用性。
引用格式
P. Feng, J. Liang, S. Wang, X. Yu, X. Ji, Y. Chen, K. Zhang, R. Shi, and W. Wu, “Hierarchical Consensus-Based Multi-Agent Reinforcement Learning for Multi-Robot Cooperation Tasks,” IROS 2024, https://doi.org/10.48550/arXiv.2407.08164.
研究背景
多智能体强化学习(MARL)近年来在人工智能领域引起了广泛关注,其核心思想是通过多个智能体的协同合作来解决复杂任务,这些任务通常单个智能体难以独立完成。然而MARL面临诸多挑战,特别是智能体之间的通信和协调。传统的集中训练与分散执行(Centralized Traning and Decentralized Execution, CTDE)框架存在缺乏全局共识、通信开销大、部分可观测性的局限,研究人员为了解决CTDE框架在多智能体协作任务中的局限性,创新地提出了HC-MARL框架,旨在显著提升多智能体系统在复杂协作任务中的性能。
本文贡献
-
分层共识机制:HC-MARL框架构建全局共识,引入了短期共识和长期共识,优化了即时反应和战略规划之间的平衡,通过分层共识机制,使智能体能够在不同任务需求下动态调整其决策过程。
-
自适应注意机制:HC-MARL框架通过自适应注意机制,动态调整各层共识的影响力,根据任务的具体需求优化智能体的决策过程。
-
兼容性:HC-MARL框架能够无缝集成到各种多智能体强化学习算法中,确保与CTDE范式兼容。这种设计原则使得HC-MARL框架在实际应用中具有广泛的适用性和灵活性。
实验过程
研究团队在Webots仿真环境中构建了三个合作任务:捕食者-猎物任务、集合任务和导航任务,旨在测试多智能体系统在不同协作场景下的表现。同时选择了MAPPO(Multi-Agent Proximal Policy Optimization)和HAPPO(Heterogeneous-Agent Proximal Policy Optimization)两种主流的多智能体强化学习算法作为基线进行对比,从而评估HC-MARL框架的性能。
为了验证HC-MARL框架的实际应用效果,研究团队在E-puck机器人集群上进行了实验。实验使用了NOKOV度量动作捕捉系统进行室内定位,并在捕食者-猎物、集合和导航任务中进行了测试。结果如下:
在捕食者-猎物任务中,HC-MARL算法比MAPPO减少了16%的步数,比HAPPO减少了19%的步数。
在集合任务中,HC-MARL算法比MAPPO减少了10%的步数,比HAPPO减少了15%的步数。
在导航任务中,HC-MARL算法比MAPPO减少了30%的行驶距离,比HAPPO减少了34%的行驶距离,且没有发生任何碰撞。
这些结果表明,HC-MARL框架在实际应用中同样表现出色,显著提高了多智能体系统的任务效率和协作能力。通过引入分层共识机制和自适应注意机制,HC-MARL框架能够在不同任务场景下动态调整智能体的决策过程,从而实现更高效的协作。
NOKOV度量动作捕捉系统获取机器人集群的室内定位数据,助力验证HC-MARL框架在真实世界中的适用性。
作者介绍
冯埔,北京航空航天大学计算机学院,博士研究生。主要研究方向:多智能体强化学习、知识内嵌强化学习、群体机器人和多智能体路径规划。
梁俊康,北京航空航天大学人工智能学院,硕士研究生。主要研究方向:多智能体强化学习。
王思泽,北京航空航天大学人工智能学院,硕士研究生。主要研究方向:多智能体强化学习和多智能体路径规划。
于鑫,北京航空航天大学计算机学院,博士研究生。主要研究方向:多智能体强化学习、大模型。
石荣晔,北京航空航天大学,副教授。主要研究方向:领域知识内嵌人工智能算法、物理信息神经网络、多智能体系统、强化学习及其在智慧城市领域的应用。
吴文峻,北京航空航天大学,教授,博士生导师。主要研究方向:群体智能与多智能体系统、认知建模与智能导学、智能云服务、智能软件工程等领域。