当前位置：首页 > article >正文

多智能体系统实现无直接通信协同

article 2025/4/2 8:25:09

摘要：本文提出创新多智能体强化学习框架，通过对比学习构建全局共识，使智能体在没有直接通信的情况下实现协作行为。

近期，北京航空航天大学研究团队著作成果"Hierarchical Consensus-Based Multi-Agent Reinforcement Learning for Multi-Robot Cooperation Tasks"被机器人领域会议 IEEE/RSJ International Conference on Intelligent Robots and Systems（IROS 2024）接收。

研究团队提出了一种新的框架——基于分层共识的多智能体强化学习（Hierarchical Consensus-Based Multi-Agent Reinforcement Learning, HC-MARL），该框架通过对比学习构建全局共识，使智能体在没有直接通信的情况下实现协作行为。

NOKOV度量动作捕捉系统获取机器人集群的室内定位数据，助力验证HC-MARL框架在真实世界中的适用性。

引用格式

P. Feng, J. Liang, S. Wang, X. Yu, X. Ji, Y. Chen, K. Zhang, R. Shi, and W. Wu, “Hierarchical Consensus-Based Multi-Agent Reinforcement Learning for Multi-Robot Cooperation Tasks,” IROS 2024, https://doi.org/10.48550/arXiv.2407.08164.

研究背景

多智能体强化学习（MARL）近年来在人工智能领域引起了广泛关注，其核心思想是通过多个智能体的协同合作来解决复杂任务，这些任务通常单个智能体难以独立完成。然而MARL面临诸多挑战，特别是智能体之间的通信和协调。传统的集中训练与分散执行（Centralized Traning and Decentralized Execution, CTDE）框架存在缺乏全局共识、通信开销大、部分可观测性的局限，研究人员为了解决CTDE框架在多智能体协作任务中的局限性，创新地提出了HC-MARL框架，旨在显著提升多智能体系统在复杂协作任务中的性能。

本文贡献

分层共识机制：HC-MARL框架构建全局共识，引入了短期共识和长期共识，优化了即时反应和战略规划之间的平衡，通过分层共识机制，使智能体能够在不同任务需求下动态调整其决策过程。
自适应注意机制：HC-MARL框架通过自适应注意机制，动态调整各层共识的影响力，根据任务的具体需求优化智能体的决策过程。
兼容性：HC-MARL框架能够无缝集成到各种多智能体强化学习算法中，确保与CTDE范式兼容。这种设计原则使得HC-MARL框架在实际应用中具有广泛的适用性和灵活性。

实验过程

研究团队在Webots仿真环境中构建了三个合作任务：捕食者-猎物任务、集合任务和导航任务，旨在测试多智能体系统在不同协作场景下的表现。同时选择了MAPPO（Multi-Agent Proximal Policy Optimization）和HAPPO（Heterogeneous-Agent Proximal Policy Optimization）两种主流的多智能体强化学习算法作为基线进行对比，从而评估HC-MARL框架的性能。
实验中的模拟任务：（a）捕食者-猎物任务（b）集合任务（c）导航任务
为了验证HC-MARL框架的实际应用效果，研究团队在E-puck机器人集群上进行了实验。实验使用了NOKOV度量动作捕捉系统进行室内定位，并在捕食者-猎物、集合和导航任务中进行了测试。结果如下：

在捕食者-猎物任务中，HC-MARL算法比MAPPO减少了16%的步数，比HAPPO减少了19%的步数。

在集合任务中，HC-MARL算法比MAPPO减少了10%的步数，比HAPPO减少了15%的步数。

在导航任务中，HC-MARL算法比MAPPO减少了30%的行驶距离，比HAPPO减少了34%的行驶距离，且没有发生任何碰撞。
导航任务示意，左侧是真实世界环境，右侧是Webots仿真环境
这些结果表明，HC-MARL框架在实际应用中同样表现出色，显著提高了多智能体系统的任务效率和协作能力。通过引入分层共识机制和自适应注意机制，HC-MARL框架能够在不同任务场景下动态调整智能体的决策过程，从而实现更高效的协作。