Large Language Model based Multi-Agents: A Survey of Progress and Challenges
一、摘要
-
背景:
- 大型语言模型(LLMs)在多种任务中取得了显著的成功,展现出与人类相媲美的规划和推理能力。
- LLMs被用作自主智能体,自动执行任务,尤其在基于单个LLM的规划或决策智能体的基础上,基于LLM的多智能体系统在解决复杂问题和模拟世界方面取得了重大进展。
-
调查目的:
- 提供对基于LLM的多智能体系统(LLM-MA系统)的深入讨论,包括它们的基本方面和面临的挑战。
- 使读者能够深入了解LLM-MA系统模拟的领域和环境、智能体的配置和通信方式,以及智能体能力增长的机制。
-
资源提供:
- 为有兴趣深入了解该领域的研究者总结了常用的数据集和基准测试,以便他们能够方便地访问这些资源。
- 维护一个开源GitHub仓库,用于记录和更新LLM-MA系统的研究进展。
-
调查结构:
- 论文首先介绍背景知识,然后探讨LLM-MA系统如何与协作任务解决环境对齐。
- 提出一个全面的框架,用于分析LLM-MA系统的智能体-环境界面、智能体配置、智能体通信和智能体能力获取。
- 根据应用将当前工作分为问题解决和世界模拟两大类,并提供相关工具和资源。
- 讨论未来研究的挑战和机遇,并总结结论。
-
目标读者:
- 该调查旨在为不同背景的读者提供对LLM-MA系统的全面了解,包括基本概念、最新研究趋势和应用,以及如何进一步探索和创新这一领域。
二、引言
-
LLMs的潜力与进展:
- 大型语言模型(LLMs)在多个任务中取得了显著的成功,展现出与人类相媲美的规划和推理能力。
- LLMs被用作自主智能体,自动执行任务,尤其在基于单个LLM的规划或决策智能体的基础上,基于LLM的多智能体系统在复杂问题解决和世界模拟方面取得了重大进展。
-
LLM-based多智能体系统的优势:
- 多智能体系统通过专业化LLMs为不同智能体并允许它们之间互动,提供了更高级的能力,有效模拟复杂现实世界环境。
- 这种方法利用了LLMs的沟通能力,以及它们在各个领域广泛的知识和在特定任务中专业化的潜力。
-
跨学科研究的吸引力:
- LLM-based多智能体系统已在软件开发、多机器人系统、社会模拟、政策模拟和游戏模拟等多种任务中显示出有希望的结果。
- 该领域吸引了来自社会科学、心理学和政策研究等多个领域的研究者,研究论文数量迅速增加。
-
研究空白与本研究的动机:
- 尽管LLM-based多智能体系统的研究正在迅速发展,但缺乏系统的综述来总结这些研究,建立全面的研究蓝图,并检验未来的研究挑战。
- 本调查论文旨在填补这一空白,为LLM-based多智能体系统的研究提供全面的概述和深入分析。
-
调查论文的目标与结构:
- 目标是为读者提供LLM-based多智能体(LLM-MA)系统的全面概述,掌握基本概念,并把握最新研究趋势和应用。
- 论文结构包括背景知识介绍、关键问题的探讨、LLM-MA系统的全面框架、应用分类、工具和资源介绍,以及对未来研究挑战和机遇的讨论。
-
开源资源:
- 为了提供一个可持续的资源来补充调查论文,作者维护了一个开源GitHub仓库,记录和更新LLM-MA系统的研究进展。
三、背景
-
单智能体系统的能力:
- 决策思考:LLMs能够指导智能体将复杂任务分解成小的子目标,并系统地思考每个部分,有时探索多种解决方案路径,并从过去的经验中学习,以提高复杂任务的决策能力。
- 工具使用:LLM-based智能体能够利用外部工具和资源来执行任务,增强其在多变环境中的功能能力和效率。
- 记忆:LLM-based智能体具备记忆能力,包括短期的上下文学习和长期的外部数据库存储,这使得它们能够保存和检索信息,维持上下文的连贯性,并从互动中学习。
-
单智能体系统与多智能体系统的对比:
- 单智能体系统更侧重于内部机制的构建和与外部环境的互动。
- 多智能体系统则强调不同智能体的角色专业化、智能体间的互动以及集体决策过程,能够通过智能体间的合作解决更复杂和动态的任务。
-
多智能体系统的潜力:
- 多智能体系统通过模拟人类群体合作的方式,使得多个智能体能够共同参与规划、讨论和决策,从而在解决问题时展现出集体智能。
背景部分强调了LLMs在单智能体和多智能体系统中的应用,并指出了多智能体系统在处理复杂任务时的优势和潜力,为读者理解LLM-MA系统的复杂性和未来的可能性提供了基础。
四、LLM-MA系统的剖析:接口、智能体配置、通信和能力获取 (Dissecting LLM-MA Systems: Interface, Profiling, Communication, and Capabilities)
LLM-MA系统的剖析
3.1 智能体-环境接口 (Agents-Environment Interface)
- 定义:智能体-环境接口指的是智能体如何与任务环境互动和感知环境的方式。
- 分类:接口分为三类:沙盒(Sandbox)、物理(Physical)和无(None)。
- 沙盒:模拟或虚拟环境,智能体可以自由交互,如软件开发中的代码解释器。
- 物理:现实世界环境,智能体与物理实体交互,遵循现实世界的物理和约束。
- 无:没有特定外部环境,智能体不与任何环境互动,如辩论应用中的智能体。
3.2 智能体配置 (Agents Profiling)
- 定义:在LLM-MA系统中,智能体通过其特征、行为和技能被定义,以满足特定目标。
- 分类:智能体配置方法分为预定义(Pre-defined)、模型生成(Model-Generated)和数据驱动(Data-Derived)。
- 预定义:系统设计者明确定义智能体配置。
- 模型生成:通过模型(如大型语言模型)创建智能体配置。
- 数据驱动:基于现有数据集构建智能体配置。
3.3 智能体通信 (Agents Communication)
- 通信范式:智能体间的通信主要分为合作(Cooperative)、辩论(Debate)和竞争(Competitive)三种范式。
- 通信结构:展示了四种典型的通信结构,包括分层(Layered)、去中心化(Decentralized)、集中化(Centralized)和共享消息池(Shared Message Pool)。
- 通信内容:通信内容通常以文本形式,具体内容取决于应用场景,如软件开发中的代码段或游戏中的策略讨论。
3.4 智能体能力获取 (Agents Capabilities Acquisition)
- 反馈:智能体从环境、智能体互动、人类反馈或无反馈中学习,以增强其能力。
- 环境反馈:来自现实或虚拟环境的反馈。
- 智能体互动反馈:来自其他智能体的判断或通信的反馈。
- 人类反馈:直接来自人类的反馈。
- 无反馈:某些情况下,智能体可能不接收任何反馈。
- 智能体调整复杂问题:智能体通过记忆、自我进化和动态生成来适应复杂问题。
- 记忆:智能体存储和检索先前互动和反馈中的信息。
- 自我进化:智能体动态调整自己的配置或目标,而不仅仅是从历史互动中学习。
- 动态生成:系统在运行时生成新智能体,以有效应对当前需求和挑战。
全面总结
LLM-MA系统的剖析部分深入探讨了系统的四个关键方面:接口、智能体配置、通信和能力获取。这些方面共同定义了LLM-MA系统如何与环境互动、如何配置智能体以满足特定目标、如何通过通信实现协作或竞争,以及如何通过学习和适应来增强智能体的能力。
-
智能体-环境接口:智能体通过沙盒、物理或无环境的接口与任务环境互动,这决定了智能体的行为和决策方式。
-
智能体配置:智能体根据预定义、模型生成或数据驱动的方法配置,以适应不同的角色和技能。
-
智能体通信:智能体之间的通信范式和结构多样,包括合作、辩论和竞争,以及不同的通信网络组织方式。
-
智能体能力获取:智能体通过接收不同类型的反馈和自我调整来学习和适应,以解决复杂问题,包括记忆、自我进化和动态生成新智能体的能力。
这一部分为理解LLM-MA系统的复杂性和动态性提供了深入的视角,并为进一步的研究和应用奠定了基础。
五、应用
4.1 LLM-MA for Problem Solving
问题解决应用:
- 动机:利用智能体的集体专长来解决复杂问题。
- 应用领域:
- 软件开发:LLM-MA系统模拟不同角色(如产品经理、工程师)的合作,以解决软件开发中的复杂挑战。
- 多机器人系统:LLM-MA用于模拟多机器人合作,执行如仓库管理等复杂任务。
- 科学实验:智能体扮演不同专家角色,合作进行科学实验。
- 科学辩论:智能体通过辩论来提高集体推理能力,解决复杂的科学问题。
4.2 LLM-MA for World Simulation
世界模拟应用:
- 动机:利用LLM-MA系统的角色扮演能力,模拟现实世界中的各种角色和观点。
- 应用领域:
- 社会模拟:模拟社会行为,探索社会动态和传播,测试社会科学理论。
- 游戏:LLM-MA用于创建模拟游戏环境,允许智能体扮演游戏中的角色。
- 心理学:模拟具有不同特质和思维过程的人类,研究个体和群体行为。
- 经济:模拟经济和金融交易环境,探索经济理论。
- 推荐系统:模拟用户和物品的交互,优化推荐系统。
- 政策制定:模拟政策制定过程,评估政策对不同社区的影响。
- 疾病传播模拟:模拟疾病传播,研究公共卫生干预措施。
六、实现工具和资源 (Implementation Tools and Resources)
5.1 多智能体框架 (Multi-Agents Framework)
- MetaGPT:设计用于将人类工作流程嵌入语言模型智能体的操作中,减少在复杂任务中常出现的幻觉问题。通过将标准操作程序编码到系统中,并采用流水线方式为不同智能体分配特定角色。
- CAMEL:即Communicative Agent Framework,旨在促进智能体之间的自主合作。使用一种称为inception prompting的技术,引导对话智能体执行符合人类目标的任务。
- AutoGen:一个多功能框架,允许使用语言模型创建应用程序。其特点是高度可定制,使开发者能够使用自然语言和代码编程智能体的互动方式,适用于从技术领域如编码和数学到消费领域如娱乐等不同领域。
5.2 数据集和基准测试 (Datasets and Benchmarks)
- 论文总结了LLM-MA研究中常用的数据集或基准测试,并指出不同研究应用使用不同的数据集和基准测试。
- 在问题解决场景中,数据集和基准测试用于评估多个智能体合作或辩论中的规划和推理能力。
- 在世界模拟场景中,数据集和基准测试用于评估模拟世界与现实世界的一致性或分析不同智能体的行为。
- 某些研究应用,如科学团队操作实验和经济建模,仍需要全面的基准测试,以更好地评估LLM-MA系统在这些复杂和动态领域中的成功和适用性。
七、挑战和机遇 (Challenges and Opportunities)
6.1 进入多模态环境 (Advancing into Multi-Modal Environment)
- 挑战:大多数LLM-MA工作集中在文本环境中,缺乏在多模态环境中的交互,这要求智能体能够处理和解释多种感官输入,并生成多种输出,如图像、音频、视频和物理动作。
6.2 解决幻觉问题 (Addressing Hallucination)
- 挑战:幻觉问题指的是模型生成的事实不正确的文本。在多智能体设置中,一个智能体的幻觉可能会级联影响到其他智能体,因此检测和减轻幻觉问题在LLM-MA中尤为重要。
6.3 获得集体智能 (Acquiring Collective Intelligence)
- 挑战:LLM-MA系统主要从即时反馈中学习,而非离线训练数据集。这种学习方式需要可靠的交互环境,且在许多任务中设计这样的环境具有挑战性,限制了LLM-MA系统的可扩展性。
6.4 扩展LLM-MA系统 (Scaling Up LLM-MA Systems)
- 挑战:随着智能体数量的增加,计算复杂性和资源需求显著增加。在资源有限的情况下,发展LLM-MA系统面临挑战。同时,需要研究如何优化智能体的工作流程、任务分配和通信模式。
6.5 评估和基准测试 (Evaluation and Benchmarks)
- 挑战:现有的研究多聚焦于评估单个智能体的理解能力,而忽略了多智能体系统中更复杂的涌现行为。此外,缺乏跨多个研究领域的全面基准测试,这限制了对LLM-MA系统能力的准确评估。
6.6 应用和超越 (Applications and Beyond)
- 机遇:LLM-MA系统的潜力远超当前应用,它们在金融、教育、医疗保健、环境科学、城市规划等领域具有巨大的应用前景。随着LLM技术的进步,预计将出现更多针对不同研究领域的复杂方法、应用、数据集和基准测试。
八、结论 (Conclusion)
-
集体智能的展示:
- LLM-MA系统展现了令人鼓舞的集体智能,迅速引起了研究者们的广泛关注。
-
系统性回顾:
- 论文通过系统性地回顾LLM-MA系统的发展,从多个角度进行了定位、区分和连接,包括智能体与环境的接口、LLM对智能体的刻画、智能体通信的管理策略以及能力获取的范式。
-
应用总结:
- 论文总结了LLM-MA系统在问题解决和世界模拟两大领域的应用,展示了其在不同场景中的潜力和效果。
-
资源和挑战:
- 论文强调了常用的数据集和基准测试,并讨论了当前面临的挑战和未来的机遇,为研究人员提供了宝贵的资源。
-
研究启发:
- 论文希望这份调查能够成为跨领域研究人员的有用资源,并激发未来的研究,以探索LLM-based多智能体系统的潜力。
结论部分强调了LLM-MA系统的重要性,并总结了论文的主要贡献。它不仅概括了LLM-MA系统的关键进展和应用,还指出了该领域的挑战和未来方向,为后续的研究提供了方向和启发。通过这些结论,读者可以清晰地理解LLM-MA系统的现状和未来发展潜力。