当前位置: 首页 > article >正文

基于大语言模型的智能Agent研究:定义、方法与展望(Large Language Model Based Intelligent Agents)

在这里插入图片描述

原文地址

Abstract

智能代理是通往通用人工智能(AGI)的一条潜在道路。因此,研究人员已经投入了大量的精力来实现它们。受益于大型语言模型(LLM)的最新进展,使用通用自然语言作为接口的基于LLM的代理在各种应用中表现出强大的泛化能力-从作为自主通用任务助手到编码,社会和经济领域的应用,基于LLM的代理提供了广泛的探索机会。本文调查了目前的研究,提供了一个深入的概述基于LLM的智能代理在单代理和多代理系统。它涵盖了它们的定义,研究框架和基本组成部分,如它们的组成,认知和规划方法,工具的利用,以及对环境反馈的反应。我们还深入研究了在多代理系统中部署基于LLM的代理的机制,包括多角色协作、消息传递和减轻代理之间通信问题的策略。讨论还揭示了流行的数据集和应用场景。最后,考虑到人工智能和自然语言处理的不断发展,我们展望了基于LLM的代理的前景。

1 Introduction

1.1 Intelligent Agents

近年来,基于LLM的药物研究引起了广泛的关注。人工智能中的“代理人”概念有着坚实的基础,主要强调了人工智能系统中代理人及其环境之间的区别[1]。任何能够感知其环境并采取行动的实体都可以被认为是代理。Agent具有在不同环境中执行任务的自主性,依靠他们过去的经验和知识来做出与预定义目标一致的决策。通常,Agent表现出以下特征[1,2,3,4]:

  • 自主性:智能体独立地感知环境,做出决策,并采取行动,而不依赖于外部指令。
  • 感知:代理人具备感知能力,能够通过传感器收集环境信息。
  • 决策:主体根据感知的信息做出决策,选择适当的行动来实现目标。
  • 动作:代理执行改变其环境状态的动作。

代理可以分为五种类型:简单反射代理,基于模型的反射代理,基于目标的代理,基于实用程序的代理和学习代理[1]。基于强化学习的代理(基于RL的代理)和基于大型语言模型的代理(基于LLM的代理)属于学习代理的类别。学习代理的一个定义性特征是它们根据经验学习和改进其行为的能力。随着时间的推移,这些代理人可以通过观察他们的环境和他们的行动结果来加强他们的决策过程。这种改进解决了其他代理类型固有的局限性,如缺乏自主学习能力和管理多步决策问题的困难。这些不同的类型通常依赖于固定的规则或简单化的模型,这可能会限制它们的适应性和泛化能力[5,6]。

在这里插入图片描述

1.2 RL-based Agents

基于RL的代理的主要目标是学习一种策略,该策略指导代理在不同的状态下采取行动,以最大化累积回报[7]。这些代理人通过反复试验不断学习,不断调整策略以优化长期回报。基于RL的代理在游戏[9]、机器人控制[10]和自动驾驶[11]等领域取得了相当大的成功[8]。强化学习的基本框架包括Agent、环境、状态、动作、奖励等。代理在环境中执行动作,并且环境基于代理的动作以状态和奖励的变化来响应。代理人根据环境的反馈来调整策略,以在未来的行动中获得更高的累积回报。然而,近年来,基于RL的药剂的某些局限性逐渐显现,代表性的局限性包括[12,13]:

  • 训练时间:RL算法通常需要大量时间才能收敛到稳定和令人满意的性能。这是因为智能体必须探索环境,从其交互中学习,并根据观察到的奖励不断更新其策略。延长的训练时间可能会带来显著的缺点,特别是对于大规模和复杂的问题。
  • 样本效率:基于RL的代理通常必须在学习有效策略之前与环境进行多次交互。这种高样本要求在计算上可能是昂贵的,并且对于特定应用是不可行的,例如机器人或真实世界场景,其中数据收集是昂贵的或耗时的。
  • 稳定性:RL的学习过程可能是不稳定的,特别是在使用深度神经网络等高维函数逼近器时。这种不稳定性可能导致性能的振荡甚至学习算法的发散。这个问题是加剧了基于RL的代理经常处理非静态环境,其中动态变化的代理的政策演变。
  • 可推广性:基于RL的智能体往往专注于他们所接受的特定任务,并且可能无法有效地推广到新的任务或环境。这种泛化能力的缺乏可能是一个重大的限制,因为它需要为每个新问题从头开始训练一个新的代理。迁移学习旨在通过利用在一项任务中获得的知识来改善相关但不同任务中的学习来解决这个问题。然而,为RL开发有效的迁移学习技术仍然是一个开放的研究挑战。

1.3 LLM-based Agents

当代研究强调了自然语言处理(NLP)领域的LLM的特殊专业知识,包括推理,一般问题回答,编程和文本生成[14,15]。然而,调查揭示了LLM在处理实际任务时经常遇到的许多障碍[16,17,18]:

  • 上下文长度约束:LLM经常遇到上下文长度的限制,与开始或结束时的文本相比,忽略位于上下文中心部分的文本的倾向更高。
  • 专业知识更新:LLM在每次训练迭代期间需要大量的时间和计算资源,从而导致知识更新延迟。
  • 缺乏直接工具利用:LLM不能直接使用外部工具,如计算器,SQL执行器或代码解释器。

代理机制在一定程度上可以促进上述挑战。基于LLM的代理,例如在LLM上构建的智能代理,如GPT-4 [19],融合了LLM和代理的优点。与其他代理不同,基于LLM的代理将LLM用于认知和战略过程,鼓励智能行为。与替代药物相比,基于LLM的药物的优点包括以下内容[20,21]:

  • 强大的自然语言处理和综合知识:利用在大量文本数据的培训过程中培养的强大的语言理解和生成能力,LLM拥有大量的常识知识,特定领域的专业知识和事实数据。这赋予了基于LLM的代理管理一系列自然语言任务的能力。
  • 零次或少次学习:LLM在训练过程中已经获得了丰富的知识和能力,因此基于LLM的代理通常需要最少的样本才能在新任务中表现出色。他们非凡的概括能力使他们能够在以前从未遇到过的情况下表现得令人钦佩。
  • 有机人机交互:基于LLM的代理可以理解和生成自然语言文本,通过自然语言促进人类用户和智能代理之间的交互。这增强了人机交互的便利性和以用户为中心。

通过将LLM的语言理解和生成能力与Agent的决策和规划能力相结合,基于LLM的Agent为LLM在实际应用中所带来的障碍提供了有希望的解决方案。

本文首先在第二节介绍了基于LLM的代理系统,在第三节中简要介绍了基于LLM的代理系统框架。第4节描述了流行的数据集和评估方法的代理。在第5节中,我们研究了不同领域的基于LLM的代理人的就业情况,包括自然科学,社会科学,工程系统和一般领域。最后,第6节研究了代理的发展轨迹,其中包括增强基于LLM的代理的适应能力,将多模态模型或大型多模态模型(LLM)赋予代理多模态信息处理能力,并解决遇到的挑战。

2 Overview

在仔细研究基于LLM的代理,他们可以分为两个主要类别:单代理和多代理系统。这些不同的系统类型在许多方面表现出相当大的差异,包括应用程序域,内存和重新考虑机制,数据先决条件,模态和工具集。随后,本文深入到这些代理品种,以帮助读者了解他们的奇异属性和应用领域。

2.1 Single-Agent System

单代理系统包含一个基于LLM的智能代理,精通处理多个任务和域,通常表示为基于LLM的代理。基于LLM的代理具有广泛的语言理解,生成能力和多任务泛化能力,使其能够执行代码生成,游戏探索和数据管理等任务。此外,不同的基于LLM的代理的评估方法各不相同,并且所使用的工具也没有标准化。基于LLM的代理可以是单峰或多峰的,这取决于其设计目标。即将到来的表1列出了几个当代LLM为基础的代理商的概要。

在这里插入图片描述

在这里插入图片描述

每个基于LLM的代理V可以简洁地表示为五元组V =(L,O,M,A,R),其中L表示LLM,O表示目标,M体现内存,A构成动作,R概括反思:

  • LLM:验证LLM和代理的配置和属性通常需要提示定义或采用不同的特定于域的LLM。可以假设LLM不需要补充训练;然而,它的推理参数(例如温度)可以动态调整。LLM作为基于LLM的代理的大脑核心,根据当前观察、历史记忆和奖励信息来制定任务策略和决策。
  • 目标:主要目标,表示为目标,表示代理必须达到的最终状态或条件。代理必须根据目标进行任务分解和规划。
  • 行动:代理拥有可以执行的动作的库,通常涉及利用各种工具,设计新工具或向环境或其他代理传输消息。
  • 记忆:智能体的记忆存储信息并象征智能体的当前状态。当智能体采取行动时,随后的环境反馈和奖励信息被记录在存储器中。
  • 重新思考:在执行一个动作时,智能体需要利用其内省能力,称为“反思”,以反映先前的动作和相关的环境反馈奖励。反射过程应该与代理的内存、LLM或其他合适的模型集成,以计划和执行后续操作。

关于基于LLM的代理的外部成分,环境和工具通常包括以下内容:

  • 工具:工具是指代理可以使用的任何工具,例如计算器,代码解释器,机器人手臂等。
  • 环境:代理人所处的环境对其行为有重大影响。代理可以观察并与该环境交互,获得有价值的反馈。

2.2 Multi-Agent System

与单智能体系统不同,多智能体系统(MAS)是由多个相互作用的智能体组成的计算机化系统[22]。受明斯基的心智社会(SOM)[23]和基于自然语言的SOM(NLSOM)[24]的启发,多智能体系统(MAS)的设计要求各种智能体之间高度复杂的协调,特别是在它们的交互和信息共享方面。每个代理通常拥有特定的领域专长,使多代理系统特别有利于跨多个领域的任务。德克尔[25]概述了一个四维框架的MAS。这些方面包括:1)Agent的粒度,从粗糙到可接受的配置; 2)Agent知识的异质性,将具有冗余知识的Agent与具有专业知识的Agent进行比较; 3)控制分配机制,可以分为仁慈或竞争,面向团队或分层,并且可能涉及静态或移动角色分配; 4)通信协议的多样性,区分黑板和基于消息的系统,并指定从低级到高级内容的层次。

在这里插入图片描述

从应用的角度来看,Parunak [26]从三个重要特征提出了MAS的分类:

  • System Function;
  • System Architecture (e.g., communication, protocols, human involvement);
  • Agent Architecture (e.g., degree of heterogeneity, reactive vs. deliberative).

该分类法的主要贡献在于将MAS分为代理级和系统级特征。Stone和Veloso [2]根据两个关键维度对MAS进行分类:异质性程度和通信程度。这种分类框架产生四种不同的原型MAS:同质非通信代理,异构非通信代理,同质通信代理,和异构通信代理。诸如控制理论和强化学习等验证方法是赋予这些代理智能和自主权的常见做法。

正如Yang [27]所强调的那样,在单智能体范式中的深度Q学习(DQN)[8]架构取得突破之后,2019年观察到基于RL的智能体扩展到多智能体系统,这标志着多智能体强化学习(MARL)技术的蓬勃发展。在MARL的背景下,Hu等人。[28]提供了一种分类法,通过采用随后的四个维度来区分MARL算法:

  • Task Mode: Cooperative-like or Competitive-like;
  • Agents Type: Heterogeneous or Homogeneous;
  • Learning Style: Independent Learning, Centralized Training, Decentralized Execution (CTDE), or Fully Centralized;
  • Knowledge Sharing: Agent Level, Scenario Level, or Task Level.

LLM自2022年以来一直蓬勃发展。考虑到MAS中基于LLM的Agent,图G(V,E)可以表示多个基于LLM的Agent之间的关系。这里V是节点集,Vi表示基于LLM的代理,E是边集,Eiji表示基于LLM的代理Vi和Vj之间的消息传递和关系。

我们建议考虑到以下方面进行分类:

  • Multi-Role Coordination: Cooperative, Competitive, Mixed, and Hierarchical;
  • Planning Type: Centralized Planning Decentralized Execution (CPDE) and Decentralized Planning Decentralized Execution (DPDE).

It will be listed with the detailed information of each LLM-based in the following table 2.

在这里插入图片描述

2.3 Agent System Template

许多研究人员提出了代理和模板解决方案,以帮助未来的研究人员和爱好者开发更相关的代理。例如,ToolLLM [74]为数据构建,模型训练和评估提供了一个全面的模板,促进了具有增强功能的代理的开发。

各种项目,如AutoGPT [75],XLang [76],LangChain [77],MiniAGI [76],XAgent [78],OpenAgents [79]和WorkGPT [80],都在GitHub上开源了他们的代码。这些模板支持多种功能,包括不同的思考、规划和审查方法,并允许将各种模型集成为代理的核心组件。此外,AgentGPT [81]提供了微调模型和将本地数据纳入模型训练过程的功能。Crouse等人。[82]引入了一个简化的模板,利用线性时态逻辑(LTL)来促进基于LLM的代理的设计和实现,促进快速实验并提高代理性能。

此外,AutoGen [83]、AgentVerse [84]、AutoAgents [85]和AGENTS [86]等模板通过允许在多代理配置中选择和自定义角色来加快多代理系统的创建,从而简化了开发过程。

3 LLM-based Agent System Framework

3.1 LLM-based Single Agent System

本节将单智能体系统简单地分解为五个关键部分:计划、记忆、反思、环境和行动。每一个组成部分,突出其独特的贡献,形成一个统一的整体,强调系统的复杂设计和功能的关键部分。

3.1.1 Planning

规划能力定义了基于LLM的代理根据设定的目标和现有的环境约束设计动作序列的能力,以确保目标的实现。这是基于LLM的代理的一个重要功能,包括任务分析,潜在的动作预测,最佳动作选择以及解决复杂问题和任务的能力。与使用Dijkstra [87]和POMDP [88]等规划算法在状态空间中找到最佳动作序列并在不确定环境中进行规划的传统和RL代理不同,基于RL的代理需要学习策略[5]。基于LLM的代理主要从LLM获得其规划能力。尽管LLM主要通过自然语言或特定文本进行交流,但其内部结构和培训方法赋予了他们一定的规划能力。最近的研究趋势也突出了引导LLM思考和规划作为一个重要的发展方向。

在这里插入图片描述

In-Context Learning (ICL) Methods
ICL利用自然语言提示,包括任务描述,并可能由任务示例补充,以指导解决问题的语言模型[106]。思想链(CoT),包括复杂CoT [90],自动CoT [91]和零射击CoT [92],采用思想引导的提示,将复杂的任务系统地解构为较小的,可管理的组件,从而促进长期规划和审议。为了增强CoT的有效性,自我一致性[93]使用LLM生成多个推理路径并整合所得答案,例如,通过在路径中投票选择最一致的响应。思维树(ToT)[94]将问题分为几个思维阶段,在每个阶段产生多个概念,形成树状结构。搜索过程实现广度优先或深度优先探索,并使用分类器或多数表决来评估每个状态。

为了增强CoT的泛化能力,Least-to-Most [95]将复杂问题分解为子问题并依次解决它们。同时,思想骨架(SoT)[96]最初指导LLM生成答案的框架,随后通过API调用或批量解码完成每个骨架点,显着加快答案生成。思维图(GoT)[97]将LLM产生的信息表示为任意图,其中信息单元(LLM思维)作为顶点和与这些顶点之间的依赖关系相对应的边。渐进式提示(PHP)[98]通过使用先前生成的响应作为提示,加快了对准确答案的指导,从而提高了模型在解决问题上下文中的推理能力。Self-Refine [107]使LLM能够对其输出提供多方面的反馈,并基于此反馈迭代地改进先前的输出,模拟人类在生成文本时可能经历的迭代改进过程。

External Capabilities Methods
使用外部能力的方法涉及使用工具,算法或模拟技术,用于计算机科学中的规划目的。LLM+P [100]依赖于经典的规划者进行长期规划,利用规划领域定义语言(PDDL)[108]作为中间接口。该模型将问题转化为问题描述(problem PDDL),请求规划者基于“Domain PDDL”生成PDDL计划,然后将PDDL计划转换回自然语言。LLM-DP [101]将LLM与符号规划器结合起来解决具体任务,利用LLM对行动对环境的影响的理解和规划器的解决方案查找效率。Guan等人。[109]利用GPT-4生成PDDL,使用自然语言反馈细化PDDL,并将提取的领域模型应用于各种方法的鲁棒规划。RAP [102]框架通过添加世界模型在LLM中实现有意识的规划推理。它采用原则性规划,特别是蒙特卡洛树搜索,用于有效探索以生成高回报的推理轨迹。

除了这些方法之外,还提出了其他几种方法来增强规划和推理能力。Zhao等人。[110]采用LLM作为常识世界模型,并应用启发式策略来解决复杂的任务规划问题。Romero等人。[103]概述了一种整合认知架构和LLM的可行方法。Merkle和Mikut [104]提出了一种基于模拟的方法,该方法通过知识图和实体嵌入来表示异构上下文,并通过并行运行的代理动态地组成策略。FaR [111]结合心理理论(ToM)[112]提供了一个框架,使LLM能够预测未来的挑战并考虑潜在的行动。LATS [113]将LLM作为智能代理,价值函数和优化器,利用其潜在的好处来增强规划,行动和推理能力。图上思维[114]通过在知识图上执行波束搜索来帮助代理识别最佳规划路径。这些方法展示了LLM在各种规划和推理任务中的多功能性和潜力,为未来更先进和更有效的解决方案铺平了道路。

Multi-stage Methods
多阶段方法将规划过程分解为不同的阶段,旨在提高LLM在复杂推理和解决问题任务中的性能。SwiftSage [105]是一个受双进程理论启发的框架,它结合了行为克隆和引导LLM的优点,以提高任务完成性能和效率。它由两个主要模块组成:SWIFT模块,负责快速、直观的思考,SAGE模块,处理深思熟虑的思考。DECKARD [48]的探索过程分为做梦和清醒两个阶段。在梦想阶段,智能体利用LLM将任务分解为子目标。在清醒阶段,智能体为每个子目标学习模块化策略,根据智能体的经验验证或纠正假设。

这些方法增强了模型在复杂推理和解决问题任务中的性能。通过这些方法,LLM可以指导思考和规划,以解决复杂的问题和任务。

3.1.2 Memory

基于LLM的Agent中记忆系统的主要功能是保存和调节知识、经验数据和历史信息,这些信息可以在问题解决和任务执行过程中用于参考和修改。此外,存储器经常体现基于LLM的代理的当前状态。传统上,这种代理的存储器以文本格式记录,从而实现与LLM的无缝交互。本文概述了流行的内存分类和相关的设计方法。
在这里插入图片描述
Short-term Memory
短期记忆存储和处理有限数量的瞬时信息。在基于LLM的代理的上下文中,这可以通过将输入文本与受LLM的上下文长度约束的与正在进行的任务相关的上下文相关的数据合并来实现。正如ChatDev [66]所展示的那样,会话历史被存档,从而能够根据记录的代理间通信为后续步骤做出决策。LangChain [77]通过封装每个交互的关键信息并保留最经常的交互来提高短期记忆效率。

Long-term Memory
长期记忆存储和调节大量的知识,经验数据和历史记录。利用长期记忆的代理可以包括与外部知识库、数据库或其他信息源的交互。外部存储器的设计可以利用诸如知识图[115]、向量数据库[116]、关系数据库查询或API调用等技术来与外部数据源进行交互。Voyager [50]采用不断扩展的技能库来存储和检索复杂的行为。在GITM中,记忆主要帮助从外部知识库中提取最相关的文本知识,长期记忆随后利用这些知识来识别必要的材料,工具和相关信息。为了增强代理性能,ExpeL [117]代理保留了多个任务的经验。在反射[118]中,通过自我反思获得的经验保存在长期记忆中,并影响未来的行动。MemGPT [119]是一个智能系统,擅长管理不同的内存层次结构,有效地在有限的LLM上下文窗口内提供扩展上下文,并利用中断来管理自身和用户之间的控制流。

短期记忆可以封装和概括重要信息,然后动态地存储在长期记忆中。正如生成代理[63]所证明的那样,代理通过归档和更新其经验来维持其内部状态,通过将其经验与LLM的语言表示对齐来生成自然语言,并不断积累新经验并将其与现有经验整合。代理的记忆经历随着时间的推移而演变,并且可以动态地访问以表示代理的当前状态。

Memory Retrieval
检索增强生成[120]可以将信息检索组件与LLM结合联合收割机,并产生更可靠的输出。检索目标可以用存储器来表示,即,知识图书馆。记忆检索对于熟练地访问和管理记忆至关重要。在基于LLM的代理的上下文中,可以通过在线学习和自适应修改来促进记忆检索。在制定记忆检索方法时,在线强化学习、多任务学习或注意力机制等技术可以实时更新和调整模型参数。LaGR-SEQ [121]引入了SEQ(样本高效查询),它训练一个基于RL的辅助代理来确定何时查询LLM以获得解决方案。REMEMBER [54]为LLM提供长期记忆,使他们能够从过去的经验中汲取经验,并引入强化学习和经验记忆来更新记忆。Synapse [122]从原始状态中清除与任务无关的信息,在受限的上下文中启用更多样本。它通过存储样本嵌入并通过相似性搜索检索它们来推广到新的任务。Kang等人[123]讨论了人脑中分布式记忆存储的特征。它提出了一个内部存储器模块,DT-Mem,它允许代理存储和检索相关的各种下游任务的信息的建设。Wang等人。[124]利用多模型存储器来存储智能体收集的交互经验,并使用体现的RAG使智能体通过探索开放世界Minecraft来自我改进。

利用上述方法,可以设计出为基于LLM的代理量身定制的内存类型和检索技术。必须强调的是,基于LLM的代理可以同时包含这两种内存类别。明智地选择相关的记忆分类和检索机制可以支持基于LLM的代理在熟练地存储,管理和快速提取数据,同时解决挑战和完成任务,从而增强其功效和适应性。

3.1.3 Rethinking

基于LLM的代理的内省能力,表示为它的反思能力,包括评估先前的决策和随后的环境反馈。该学院允许基于LLM的代理彻底检查其行为,决策和学习过程,增强其智能和适应性。当代基于LLM的Agent再思考研究可以根据学习方法进行广泛分类,包括上下文学习,监督学习,强化学习和模块协调方法。
在这里插入图片描述

In-Context Learning Methods
如第3.1.1节所述,情境学习(ICL)利用特定于任务的语言提示和实例进行强化。ReAct [125]实现了一种交互式范式,在生成与任务相关的语言推理和动作之间交替,从而促进了语言模型的推理和动作professional的协同增强。这种方法在解决需要不同动作空间和推理的任务时具有通用性和适应性。Reflexion [118]在每个动作之后计算环境,并根据自我反射确定是否重置环境,从而增强智能体的推理能力。

Supervised Learning Methods
监督学习通常取决于不同的来源,包括LLM,人类专业知识,代码编译器和外部知识。CoH [126]利用一系列带有反馈注释的先验输出来促进模型的自我增强。这种技术采用监督微调,积极和消极的评分,并经验重放,以增强性能。莱特曼等人。[127]实验证实,在数学推理任务中,过程监督优于结果监督,主动学习大大提高了过程监督的效率。内省技巧[128]介绍了一个基于过去轨迹或专家演示的自我检查框架,为策略优化提供简洁而有价值的见解。Zhou et al. [129]提倡一种基于显式代码的自我验证的暗示方法,以改进GPT-4代码解释器的数学推理能力。此外,它还在推理步骤中加入了多样性验证器,以进一步增强智能体的推理能力。

Reinforcement Learning Methods
强化学习强调通过从历史经验中获取知识来增强参数。Retroformer [130]通过从回顾模型中学习并采用策略梯度来自主调节基于LLM的代理的提示来改进代理。REMEMBER [54]介绍了一种新的半参数强化学习方法,该方法将强化学习和经验记忆结合起来,通过经验类比来更新记忆和增强能力。Zhou et al. [47]提供了一个塑造对话的框架,通过从非玩家角色(NPC)中提取相关信息并将其转化为知识图来加速智能体收敛到最佳策略。雷克斯[131]结合了一个辅助奖励层,并吸收了类似于置信上限分数的概念,最终实现了更强大和有效的AI代理性能。ICPI [132]展示了在没有专家演示或梯度的情况下执行RL任务的能力,通过RL环境中的试错交互迭代更新提示内容。Liu等人。[135]通过利用贝叶斯自适应马尔可夫决策过程(MDP)中的学习和规划来集成代理规划和行动。在这种方法中,LLM从记忆缓冲区中构建未知环境的更新后验,以进行学习,同时生成最佳轨迹,最大化规划中多个未来步骤的价值函数。Wang等人。[136]提出了一种技术,使基于LLM的代理能够通过迭代探索和邻近策略优化(PPO)[137]与环境和其他代理交互的训练进行永久改进。这种方法还有助于将短期经验整合到长期记忆中。

Modular Coordination Methods
模块化协调方法通常包括多个模块协同操作,以促进基于LLM的代理的规划和自省。多样性[133]研究了各种提示,以增加推理途径的多样性。通过引入验证器来区分有利和不利的响应,它实现了增强的加权投票,并采用多样性验证来确定每个步骤的正确性。DEPS [134]框架通过描述符,解释器和目标选择器与LLM规划者交互,提高整体成功率。PET [53]利用LLM知识来简化具体代理的控制问题。该框架包括计划、消除和跟踪模块,以完成更高级别的子任务。Dasgupta等人[70]研究了将规划者、行动者和报告者整合到一个三方系统中。该系统演示了分布式学习中的泛化能力,研究了故障场景,并描述了强化学习如何训练各个组件以提高性能。

在这里插入图片描述

这些方法和框架通过环境反馈,自我学习和反思来优化基于LLM的代理的性能。他们在提高基于LLM的代理人在反思和重新规划方面的能力方面取得了重大进展。

3.1.4 Environments

基于LLM的代理可以通过环境反馈从各种环境中进行交互和学习。这些环境可以广泛地是计算机、游戏、代码、现实世界和仿真环境。

Computer Environment
基于LLM的代理在计算环境中跨计算机,Web和移动的上下文与网站,API,数据库和应用程序进行交互。互动模式包括:

  • 网页搜罗:从网站上收集信息,以获取必要的数据和知识。
  • API调用:使用Web API访问或传输数据,促进与在线服务的交互。
  • 网络搜索:利用搜索引擎发现解决问题或完成任务的相关信息和资源。
  • 软件交互:操作和连接软件应用程序,从文字处理器到图形设计工具,以有效地执行任务。
  • 数据库管理:直接访问和更新数据库,实现实时数据处理和加工。

当代研究引入了RCI [138]等方法,该方法指导语言模型通过自然语言命令执行计算任务。WebArena [139]提供了一个独立的、自托管的网络环境,用于构建自治代理。WebGPT [140]利用搜索引擎进行文档检索,实现端到端模仿和强化学习,以优化检索和聚合,同时生成引用Web检索信息的响应。Mobile-Env [141]允许代理观察Android操作系统的屏幕截图和视图框架,使诸如点击屏幕或输入命令等操作能够与Android应用程序交互。SheetCopilot [142]使用自然语言促进与电子表格的交互。

Gaming Environment
基于LLM的代理与游戏环境中的虚拟角色,对象和设置进行交互。游戏环境中的交互方法包括:

  • 角色控制:通过发出命令(例如,移动、跳跃、攻击)。
  • 环境交互:与游戏环境中的对象进行交互(例如,拾取、使用、放置)来完成任务。
  • 状态感知:从游戏环境收集状态信息(例如,字符位置、项目计数)进行决策和规划。

突出的应用包括DECKARD [48],它部署了LLM引导的探索,用于在Minecraft游戏中设计任务。VOYAGER [50]构成了一个基于Minecraft的LLM驱动的终身学习代理,持续探索世界,获得各种技能,并发现发现。GITM [51]采用“间接映射”方法将长期和复杂的目标转化为一系列低级键盘和鼠标操作,促进Minecraft游戏中高效和适应性强的操作。AgentSims [143]生成了一个具有不同建筑物和居民的虚拟城镇,简化了任务设计,并解决了研究人员由于不同背景和编程专业知识水平而可能遇到的挑战。LLM-Deliberation [144]为基于文本,多代理,多问题和语义丰富的谈判游戏建立了一个通用的测试平台。此外,该平台可以轻松调整难度级别。

Coding Environment
编码环境使基于LLM的代理能够编写、修改和执行各种任务的代码,从编码到通过代码验证推理。代码环境中的交互方法包括代码生成、代码调试和代码评估。代码生成根据任务需求生成代码段或完整的程序。代码调试识别并纠正代码中的错误或问题。代码评估执行代码并评估其性能,根据运行时错误消息或输出优化和改进代码。LLift [145]构成了一个完全自动化的代理,与静态分析工具和LLM接口,以解决诸如错误特定建模,广泛的问题范围和LLM的非确定性等挑战。MetaGPT [67]将人类工作流程纳入LLM驱动的协作中,采用标准操作程序(SOP)作为提示,以促进结构化协调。类似地,Dong等人。[68]介绍了一个涉及多个LLM角色的自协作框架,用于自动生成代码。在这个框架中,不同的角色假定为分析师、程序员、测试员等,组建协作团队,完成代码生成任务。ChatDev [66]代表了一个虚拟聊天驱动的软件开发公司,它基于瀑布模型将开发过程分为四个离散的顺序阶段:设计,编码,测试和文档。CSV [129]通过提示解释器使用代码进行自我验证来增强数学推理能力,通过指示验证状态来增强解决方案的置信度。

Real-World Environment
基于LLM的代理可以与真实世界的设备,传感器和执行器进行交互,促进它们在真实世界场景中的操作。这些情况下的互动方法包括:

  • 数据收集:基于LLM的代理可以从传感器(如摄像头和麦克风)中积累实时数据,然后用于分析和决策。
  • 设备控制:关于设备控制,基于LLM的代理可以通过传输控制信号来操纵机器人手臂和无人机等执行器,从而完成特定任务。
  • 人机交互:关于人机交互,基于LLM的代理擅长与人类用户进行自然语言交流,能够接收指令,提供反馈和响应查询。

Di Palo等人[55]介绍了一个以语言为中心的推理工具包框架,该框架在稀疏奖励机器人操作环境中进行了测试,机器人在该环境中执行堆叠对象等任务。TaPA [146]提出了一种嵌入式任务规划代理,用于物理场景约束下的真实世界规划。Alexa Prize项目中的SimBot挑战[147]旨在构建能够在模拟物理环境中完成任务的机器人助手。Zheng等人。[148]提出了23种启发式方法,用于指导基于LLM的代理与人类合作和共同创建服务。

Simulation Environment
基于LLM的代理使用虚拟模型表示模拟环境中的真实世界系统或过程,如经济市场,物理环境和运输系统。仿真环境中的交互方法包括:

  • 模型操作:调整模拟模型中的参数或变量,以探索各种场景并分析其结果。
  • 数据分析:收集和分析模拟生成的数据,以识别可以为决策提供信息的模式、趋势和见解。
  • 优化:应用优化算法来确定模拟环境中的最佳行动方案,考虑约束条件和目标。

在最近的研究中,EschericGPT [149]展示了在交通模拟环境SUMO [150]中执行交通流分析和解决问题的能力。Li等人[34]研究了模拟社交平台中社交主体的行为特征。Horton [30]研究了基于LLM的代理在经济模拟场景中的行为,并比较了代理与实际人类行为之间的差异。AucArena [151]是拍卖的模拟环境,其中代理必须考虑资源和风险管理因素。

这些模拟环境为基于LLM的代理提供了一个可控但现实的环境,以学习,实验和开发适用于现实世界场景的解决方案,促进知识和技能从虚拟领域转移到现实生活中的应用。

总之,基于LLM的代理通过自然语言交互和各种环境中的环境反馈来学习和应用知识,为不同的任务提供强大的解决方案。

3.1.5 Action

基于LLM的代理的动作能力与动作的性能或工具的使用有关。这种代理的主要交互模式通常是通过文本生成,促进与外部环境的通信,这是一个让人想起生成代理的特征[63]。另一种方法结合了LLM或代理使用工具,包括API,计算器,代码解释器或通过基于文本的指令在物理环境中的操作。这进一步延伸到战略规划和工具部署,这可能需要开发新的工具来执行。

Tool Employment
MRKL [152]集成了LLM和外部工具来解决复杂的问题。这包括模块和路由器的构建以及自然语言查询的路由。TALM [153]将语言模型与工具连接起来,促进了文本到文本的API连接。ToolFormer [154]验证了LLM利用外部工具的能力,增强了各种任务的性能。HuggingGPT [155]结合了多个AI模型和工具,用于任务规划和执行,包括文本分类和对象检测。使用基础模型的工具学习探讨了工具学习,提出了一个通用的框架,该框架合并了基础模型和工具集,以实现高效的任务执行。Gorilla [157]深入研究了LLM在API调用和程序合成,上下文学习和任务分解中的应用,以提高性能。RestGPT [158]是一种将LLM与RESTful API连接起来以解决用户请求的方法,包括在线规划和API执行。TaskMatrix.AI [166]可以理解文本、图像、视频、音频和代码中的输入,并随后生成调用API来完成任务的代码。D-Bot [159]提供数据库维护建议,包括知识检测,根本原因分析和多LLM协作。

Chameleon [156]使用各种工具来解决挑战,并利用自然语言规划器来选择和联合收割机存储在库存中的模块,从而构建解决方案。AVIS [160]是一个自主的视觉信息搜索系统,它利用LLM动态地制定利用外部工具和检查其输出结果的策略,从而获得必要的知识,为提出的问题提供答案。

Tool Planning
ChatCoT [161]将链式思维建模为多轮对话,通过工具辅助推理改善复杂任务处理。TPTU [162]介绍了一个任务执行框架,包括任务指令,设计提示,工具包,LLM,结果,任务规划和工具利用能力。ToolLLM [74]开发了一种基于深度优先搜索的决策树,使LLM能够评估多个基于API的推理路径并扩展搜索空间。Gentopia [163]是一个允许通过简单配置灵活定制代理的框架,无缝集成各种语言模型,任务格式,提示模块和插件到一个统一的范式中。

Tool Creation
Cai等人。[164]提出了一个工具创建和利用框架,生成适合不同任务的工具。这包括分阶段的工具生成和任务执行。CRAFT [165]是一个用于开发和检索通用工具的框架,可以生成为特定任务量身定制的专用工具包。LLM可以从这些工具包中提取工具来解决复杂的任务。

3.2 LLM-based Multi-Agent System

3.2.1 Relationship of Multi-Agent Systems

在基于LLM的多智能体系统(MAS)中,许多智能体参与协作、竞争或分层组织来执行复杂的任务。这些任务的范围可以从搜索和优化、决策支持、资源分配到协同发电或控制。在这些系统中的代理之间的相互关系是至关重要的,因为它们管理代理之间的互动和合作的机制。类似地,这些代理间的关系可以外推到基于LLM的MAS。目前,大多数基于LLM的MAS的研究主要集中在代理之间的合作和竞争动力学。
在这里插入图片描述

Cooperative Relationship
在合作关系中,学术界的注意力主要集中在角色和任务分配策略以及协作决策的算法上。这种方法可以提高代理协作的效率,从而提高整体系统性能。SPP [172]通过多角色自我合作促进多回合对话,将单一的LLM转化为认知语言。生成代理[63]采用基于LLM的代理来模仿合理的人类行为,从而促进代理之间的合作。CAMEL [173]通过面向任务的角色扮演,实现AI助手与AI用户之间的多回合对话合作。MetaGPT [67]将有效的工作流程集成到LLM驱动的多代理协作编程方法中,从而实现不同角色之间的协作。ChatDev [66]利用多个基于LLM的代理进行对话任务解决,加快了LLM应用程序的开发。

从Minsky的心智社会[23]中汲取灵感,NLSOM [24]引入了基于自然语言的心智社会(NLSOM)的概念,包括多个LLM和其他基于神经网络的专家,通过自然语言接口进行通信。这种方法适用于处理各种场景中的复杂任务。Zou等人。[174]实现了设备侧LLM之间的协作。关于具体的MAS,RoCo [175]采用LLM进行高级通信和低级路径规划,促进多机器人协作。InterAct [176]分配了检查员和分类员等角色,在AlfWorld [177]中取得了显著的成功率。AutoAgents [85]可以自适应地生成和协调多个专门的代理,形成一个AI团队,以完成基于各种任务的目标。

在基于LLM的MAS框架的研究中,BOLAA [167]设计了一种用于编排多代理策略的架构,增强了单个代理的动作交互能力。AgentVerse [84]提供了一个通用的框架,简化了为LLM创建自定义多代理环境的过程。Zhang et al. [73]提出了一种新的框架,该框架使具体代理能够计划,沟通和协作,有效地完成与其他具体代理或人类的长期任务。CGMI [168]是一个可配置的通用多代理交互框架,利用LLM功能来解决特定任务中的代理性能挑战并模拟人类行为。Gentopia [163]是一个框架,允许通过简单的配置灵活定制代理,无缝集成各种语言模型,任务格式,提示模块和插件到一个统一的范式。DyLAN [178]引入了一个基于任务的动态框架,使多个代理能够交互,并提出了一种基于无监督度量的自动代理团队优化算法。该算法根据每个代理的贡献来选择最有效的代理。

Competitive Relationship
在竞争关系中,考虑因素包括设计有效的竞争策略,信息隐藏技术和对抗行为。这些技术可以帮助代理商在竞争中获得优势,从而实现他们的目标。Liang等人。[169]通过多智能体辩论框架增强任务解决能力。ChatEval [16]采用多智能体方法来促进一组LLM与各种智能对手合作,利用他们各自的能力和专业知识来提高处理复杂任务的效率和有效性。

Mixed Relationship
代理人必须在混合关系中平衡合作和竞争,以实现其目标。目前,基于LLM的MAS中混合关系的研究主要集中在协同竞争算法的设计上,这是一个重要的课题。这些技术可以帮助智能体在复杂的环境中做出有效的决策。Xu等人。[170]使多个基于LLM的代理参与狼人游戏,每个代理合作或背叛其他代理,以在不对称信息条件下实现其角色的目标。类似地,Light等人。[171]使基于LLM的代理能够参与Avalon游戏,其中每个代理必须在动态演变的游戏阶段做出决策,并参与涉及与其他代理合作或欺骗的谈判,以实现其分配角色的目标。从人类行为中汲取灵感,Corex [179]融合了各种协作模式,如辩论,评论和检索模式。总的来说,这些模式努力增强推理过程的真实性,保真度和可靠性。

Hierarchical Relationship
研究者们致力于开发有效的递阶控制结构、信息传递机制和递阶关系中的任务分解方法。这些技术使代理人能够有效地跨不同级别进行协作,增强系统的整体性能。层次关系通常表现为树结构,其中父节点代理承担任务分解过程并将任务分配给子节点代理。后者的代理坚持由其相应的父节点设置的安排,并提供汇总信息作为回报。AutoGen [83]采用不同的代理来处理任务,例如代码生成和文本编写,通过对话利用任务分解。目前,基于LLM的MAS中的层次关系的研究仍在发展中,只有有限的几个层次被探索。

在即将到来的研究工作中,利用博弈论,拍卖机制和谈判技术的承诺,在解决与合作代理之间的任务分配问题的挑战。此外,分布式约束优化问题(DCOP)提出了一个实质性的框架,研究合作代理之间的协作决策。在其他关系类型的背景下,合作博弈和多目标强化学习(MORL)成为探索合作与竞争之间微妙平衡的关键框架。这些既定的研究框架也可以在基于LLM的MAS中进行调整和完善。

3.2.2 Planning Type

在MAS领域中,规划是一个至关重要的组成部分,因为它使多个代理人在追求共同的目标。已经提出了许多规划方法,每一种都表现出独特的优点和限制。类似于多智能体强化学习中的集中式训练分散式执行(CTDE)[180]的概念,本研究深入研究了两种主要的规划范式:集中式规划分散式执行(CPDE)和分散式规划分散式执行(DPDE)。
在这里插入图片描述
Centralized Planning Decentralized Execution (CPDE)
在CPDE范式中,集中式LLM负责代表系统中包含的所有代理进行规划。这要求LLM考虑所有代理的目标,能力和限制,为他们制定适当的行动计划。正如Gong等人[181]所强调的那样,计划者必须同时管理多个代理,规避潜在的冲突,并协调它们以实现需要复杂协作的共同目标。在完成规划后,每个代理独立地执行其指定的任务,而无需与中央LLM进一步交互。这种方法的优点在于在全球范围内优化整体性能,因为中央LLM可以考虑所有代理的需求和资源。Li et al. [72]在overcooked [182]和MiniRTS [183]多智能体环境中开发了SAMA,采用集中式LLM来促进目标生成,目标分解,目标分配和自我反思的重新规划。

然而,CPDE也表现出一定的局限性。首先,集中式规划过程可能导致计算复杂性升级,特别是在管理众多代理和复杂任务时。其次,考虑到所有代理都依赖于单个LLM进行规划,系统可能容易受到单点故障和通信延迟的影响。最后,CPDE可能不适合需要实时响应和增强适应性的情况,因为中央LLM可能无法快速响应环境变化。

Decentralized Planning Decentralized Execution (DPDE)
与CPDE相比,DPDE系统包含负责每个代理中的行动计划的单独LLM。因此,每个代理都可以根据其目标,能力和本地信息独立制定计划。在执行阶段,代理可以通过本地通信和协商协调他们的行动来加强协作。DPDE的好处包括增加的鲁棒性和可扩展性,因为每个代理独立地计划和执行,从而减轻了中央LLM的计算负担。此外,DPDE系统通常表现出更大的适应性,因为每个代理可以根据本地信息迅速修改其行为。这个属性使得DPDE系统更适合于动态和不确定的环境。

然而,DPDE的约束包括在实现全局最优性的潜在挑战,因为每个代理的规划是视当地的信息。此外,协调和通信开销在大规模系统中可能变得相当大,从而潜在地影响整体性能。

代理人之间的信息交流对于促进此类系统中的合作与协作至关重要。接下来的讨论描述了DPDE系统中代理之间的三类信息交换:

Information Exchange Without Communication
在这种模式下,代理人避免直接沟通。每个智能体独立地计划和执行,完全依赖于本地信息和观察来完成任务。这种方法的优点在于最小的通信开销,因为代理不需要交换信息。此外,这种方法可能是通信有限或不可靠的环境中唯一可行的选择。尽管如此,缺乏沟通可能会导致代理之间的次优协作,因为它们无法共享信息,协调行动或解决冲突。在某些情况下,这可能导致效率低下的行为和整体性能的恶化。

Information Exchange With Communication
在这种模式下,代理人通过明确的沟通进行信息交换和行动协调。通信可以采取多种形式,包括消息传递、广播或点对点通信。代理可以通过通信来传播观察、目标、计划和其他相关信息,从而增强协作和整体性能。然而,通信可能会招致额外的开销,包括通信延迟、带宽利用和接收信息处理。此外,在以不可靠或有限通信为特征的环境中,这种方法可能会遇到障碍,例如丢失消息或延迟更新。

Information Exchange With Shared Memory
在这种模式下,代理通过共享内存交换信息,共享内存是一种集中的数据结构,可由系统内的所有代理访问和修改。Agent通过在共享内存中存储和检索信息来实现信息共享和协作。

共享内存有几个优点,例如简化通信,因为代理不需要直接发送和接收消息。此外,它提供了一个统一的信息表示和访问机制,简化了系统的设计和实现。

然而,共享内存表现出某些限制。首先,争用和同步问题可能会出现,因为所有代理都需要访问和修改共享内存。其次,共享内存可能会妨碍系统的可伸缩性,需要所有代理之间的一致性。最后,在分布式和移动的代理环境中实现共享内存可能会面临技术挑战,例如确保数据一致性和管理并发控制。

在当代研究中,可以确定两种形式的共享记忆:

  • 中央知识库:可以建立中央知识库来存储和管理每个代理的共享知识。该知识库可以是数据库、知识图或其他存储结构。智能体可以通过查询和更新知识库来实现内存共享。MetaGPT [67]提供了一个全局内存池来存储所有协作记录,使每个代理都能订阅或搜索所需的信息。这种设计允许代理主动观察和提取相关信息。
  • 共享参数:在某些情况下,可以考虑允许在基于LLM的MAS系统中的代理之间部分或完全共享模型参数。通过这种方式,当一个智能体获得新的知识或技能时,其他智能体也可以立即获得这些信息。然而,这种方法可能会引起过度拟合或过度专业化的问题。为了解决这个问题,共享参数的权重可以动态调整,以平衡每个代理的专业化和泛化能力。

3.2.3 Methods of Enhancing Communication Efficiency

在基于LLM的MAS中,无效沟通和LLM错觉的挑战确实是可能的。为了缓解这些问题,可以采用以下策略:
在这里插入图片描述

Design Effective Communication Protocols
在MAS领域,必须通过三重透镜,包括何时,“什么"和”如何“的维度来审视关于沟通的话语。这些维度共同决定了代理之间交互的时间,内容和方式,从而成为系统解决复杂问题和协调努力的功效的关键因素。

可以识别四个级别的代理通信:

  • 消息语义:每个消息的含义。
  • 消息传递:每个消息的表达。
  • Agent通信/交互协议:会话/对话的结构。
  • 传输协议:代理发送和接收消息的方法。

从历史上看,智能代理,特别是基于RL的智能代理,通过学习进行隐式通信。相比之下,基于LLM的代理可以通过NLP进行通信,为人类提供更透明和明确的交互模式。因此,关于基于LLM的MAS,关于消息语义和传输协议的关注被消除。

消息语法的问题将注意力转向Agent通信语言(ACL),该语言基于Searle提出的言语行为理论[184]。出现了两个突出的标准:知识查询和操作语言(KQML)[185]和由智能物理代理基金会(FIPA)提出的ACL 。

1996年,FIPA为异构和交互代理以及基于代理的系统制定了标准。FIPA的ACL包括22个执行行为或通信行为,如通知和请求。这些施为语不是孤立的实体,而是作为代理之间的结构化会话协议的组成部分。这些协议由预定义的规则来规范,这些规则概述了为实现特定的集体目标而使用的顺序和时间。例如,FIPA-ACL可以构造FIPA-Auction-English协议和FIPA-Auction-Dutch协议。

实现定义良好的通信协议可以确保代理交互遵循一致的结构和语义,减少歧义和误解,提高通信效率。采用嵌入[186]或结构化输出格式,如JSON,可以进一步增强这些优势。

Employing Mediator Models
在基于LLM的MAS中,LLM之间的广泛互动可能会导致费用增加和参与持续时间延长。中介模型作为一种识别机制,有助于确定LLM之间交互的必要性,从而减少冗余的通信开销并提高系统的整体功效。中介模型的决定,从事互动的影响任务的复杂性,代理人之间的协会的程度,和通信支出。现有的研究已经见证了中介模型的实施,Hu等人的研究。[52],Karimpanal等人。[121]深入研究优化代理和LLM之间的成本效益,智能交互。

Mitigating Inaccurate Outputs in LLMs
LLM经常倾向于产生以过度赞扬或毫无根据的信息为特征的输出。Wei等人的研究。[187]介绍了一种直接的方法,该方法在辅助微调阶段使用合成数据来减少奉承输出的发生。Rawte等人[188]对LLM中的幻觉以及用于抵消幻觉的技术进行了全面分析。验证链(CoVe)[189]试图通过促使模型最初产生初步响应来最大限度地减少幻觉,随后制定验证查询以检查草稿,独立解决这些查询,并最终生成经过验证和改进的响应。

通过实施这些策略,可以有效地解决基于LLM的MAS中的无效通信和LLM幻觉的问题。这将最终提高系统的性能和稳定性。

4 Performance Evaluation

4.1 Dataset

大多数基于LLM的代理不需要进一步培训LLM,并且某些特定任务的数据集不可公开访问。因此,我们只列举公开可用和广泛使用的数据集。

在这里插入图片描述

4.2 Benchmark

目前,还没有广泛使用的基于LLM的代理人的基准,虽然一些研究从事他们的LLM为基础的代理人与其他人的比较分析。此外,研究人员正在朝着提出可以作为未来评估标准的基准迈进。ToolBench [74]是一个工具利用率的预防调整数据集,包括单工具和多工具场景。TE [199]评估了语言模型模拟人类行为各个方面的能力。Akata等人。[200]试图理解LLM的社会行为。它为机器的行为博弈论奠定了基础,突出了理解LLM如何在交互式社会环境中运作的重大社会价值。Ziems等人[201]贡献了一个最佳实践的汇编,用于提示和全面的评估管道,以衡量13种语言模型在24个代表性CSS基准中的零射击性能。

AgentSims [143]为LLM评估提供了一个开源平台。Drori等人。[41]涉及策划来自马萨诸塞州理工学院(MIT)和哥伦比亚大学计算线性代数的最大数学课程的问题数据集,以评估数学推理。BMTools [196]建立了工具使用的框架和评估标准。SmartPlay [202]为基于LLM的代理提供了一个具有挑战性的基准,包括六个具有独特设置的不同游戏,提供多达20个评估配置和无限的环境变化。MLAgentBench [203]是一组ML任务,旨在对AI研究代理进行基准测试,促进阅读和写入文件,执行代码和检查输出等操作。MetaTool [204]用于评估LLM是否有意识地使用工具,并可以选择适当的工具。LLM-Co [205]评估了代理推断合作伙伴意图,参与推理行动以及参与游戏环境中的长期合作的能力。

5 Prospect Applications

在这里插入图片描述

5.1 Natural Sciences

5.1.1 Mathematics

许多最近的调查集中在数学中的代理和多代理系统。例如,Kennedy和Eberhart [206]提出了粒子群优化算法,这是一种基于多智能体框架的全局优化技术,已被广泛用于解决数学,工程和计算中的优化挑战。Macal和North [207]讨论了基于代理的建模和仿真方法及其在复杂数学模型中的实现。Crainic和Rousseau [208]探索了基于代理的方法在组合优化问题中的应用,特别是关于多商品,多式联运网络的设计。

目前,基于LLM的数学Agent研究主要强调推理能力的增强和理论推导的支持。例如,数学代理[40]使用LLM来调查,发现,解决和演示数学问题。Zhou et al. [129]介绍了一种创新且高效的提示技术,称为基于代码的自验证,以进一步增强GPT-4代码解释器的数学推理潜力。LeanDojo [209]是一个可以持续与Lean交互的工具,纠正现有理论证明工具中的校对错误。Dong等人。[210]通过使用GPT-4进行97次严格的“苏格拉底式”推理,最终确定“P =NP”。Yang等人。[211]设计了一个系统,能够仅使用原始Web文本的集合自动生成有效的,原始的和有价值的假设。ToRA [212]提出了一系列工具集成的推理代理,利用自然语言推理并调用外部工具来解决复杂的数学问题。COPRA [213]用于形式定理证明,将GPT-4作为其状态回溯搜索策略的关键元素。这种方法可以在整个搜索过程中选择证明策略,并从外部数据库中检索公理和定义。

基于LLM的代理在即将到来的数学研究工作中表现出巨大的希望,包括:

  • 帮助理论推导:基于LLM的代理理解基础领域的流行理论,如数学和物理,并促进人类在进一步推导和验证方面的努力,最终推进科学探究。
  • 符号和数值计算:基于LLM的代理可以用于符号和数值计算,支持研究人员解决各种数学挑战。智能体可以执行许多数学程序,包括解方程、积分、微分等。多智能体系统可以通过将复杂的数学问题协作划分为多个子问题来提高计算的方便性和精确性。

尽管基于LLM的代理在数学理论推导和计算方面取得了成就,但仍然有必要不断改进LLM和代理的数学推理能力,并设计更有效的数学知识表示,以提高其解决复杂数学问题的准确性和效率。此外,基于LLM的代理在解决数学问题的可解释性和可靠性是至关重要的。至关重要的是探索补充方法来增强代理的可解释性,使他们能够为用户提供更清晰和可靠的解决方案。同时,对Agent推理结果的监督和验证可以保证其在实际应用中的可靠性。

5.1.2 Chemistry and Materials

在之前的研究中,Gómez-Bombarelli等人[214]提出了160万种有机发光二极管材料候选物,通过高保真模拟从广泛的分子库中有效筛选。MoldQN框架[215]将化学领域的专业知识与强化学习方法相结合,以明确描述分子修饰,确保100%的化学有效性。You et al. [216]提出了一种图卷积策略网络(GCPN),这是一种基于一般图卷积网络的模型,用于通过强化学习生成目标导向图,旨在发现具有所需属性的新分子,如药物相似性和合成可及性。Beaini等人。[217]介绍了Graphium图形机器学习库,简化了构建和训练多任务和多级分子数据集的分子机器学习模型的过程。

在化学和材料科学中基于LLM的试剂的当前研究领域中,Coscientists [218]利用LLM的功能沿着诸如互联网和文档搜索、代码执行和实验自动化等工具,能够自主设计、计划和执行真实世界的化学实验。ChatMOF [39]致力于预测和生成金属-有机骨架(MOF),包括三个核心组件:代理、工具包和评估器。这些成员精通管理数据检索、属性预测和结构生成。“ChemCrow [38]通过访问与化学相关的数据库,在生物合成、药物发现和材料设计等领域执行各种化学任务,从而加快更有效的研究。基于LLM的制剂还在以下方面显示出相当大的潜力:

  • 分子模拟和化学反应优化:基于LLM的代理可以通过模拟分子结构和化学反应来推进化学和材料科学研究。通过检查各种反应途径和条件,这些试剂可以找到合成新型材料或增强现有材料性能的有效策略。
  • 化学实验自动化和智能:基于LLM的代理可以通过检索信息,查询专业数据库以及设计和实施针对特定要求的实验计划来促进化学实验的自动化。这导致了化学反应和材料特性的数据采集。此外,多智能体系统可以通过协同合作和共享实验数据和经验来提高实验的效率和精度。
  • 材料设计和优化:在材料科学研究中,基于LLM的代理可以帮助模拟和优化材料性能。通过自主探索不同的材料组合和结构,并利用LLM强大的泛化能力来模拟和预测新材料的特性,智能体可以发现具有卓越性能的创新材料。这加快了材料设计过程并提高了整体效率。

尽管现有的基于LLM的代理在化学和材料科学研究中取得了一些成功,但进一步提高模型的准确性和可靠性仍然是一个重大挑战。未来的研究应侧重于提高LLM处理复杂化学和材料问题的能力,以提高预测和生成化学反应,材料性能和其他方面的准确性。

5.1.3 Biology

近年来,生物学领域出现了许多关于智能体和多智能体系统的成熟研究。例如,Bonabeau等人。[219]探索了群体智能的理论和应用,包括遗传算法,蚁群算法和基于多智能体模型的粒子群算法。DeAngelis和Mooij [220]全面概述了生态研究中基于个体的建模方法,模拟了生态系统中的物种相互作用和环境影响。Wilensky和兰德[221]提出了基于代理的建模方法及其在自然,社会和工程复杂系统中的应用,包括使用代理系统模拟海洋生态系统和大气环流等地理科学问题。Jain等人。[222]提出了一种利用GFlowNets作为不同候选解决方案的生成器的主动学习算法,旨在产生具有最佳特征的生物序列,如蛋白质和DNA序列。

目前,基于LLM的生物学代理的研究是有限的。BioPlanner[223]是一种自动评估方法,用于评估LLM在生物学领域内的方案生成和规划任务中的性能。OceanGPT [224]采用多智能体协作来自动生成海洋科学各个子领域的数据。然而,在以下领域仍有很大的未来调查潜力:

  • 生态系统建模:基于LLM的代理可以模拟生态系统中的物种相互作用和环境影响,帮助研究人员理解生态系统的结构和功能。例如,生态系统的稳定性,多样性和进化过程可以通过模拟各种代理的行为和相互作用来分析,包括生物个体,种群和环境。
  • 群体行为和集体智慧:通过模拟群体内的行为和互动,可以阐明群体行为,集体智慧,群体遗传学和进化的基本概念。特别是,通过模拟多个代理人的行为和相互作用,如分子或生物群体,群体行为的形成,协调,适应和进化可以检查,从而更好地了解管理整个系统功能的机制。
  • 细胞生物学和分子生物学:基于LLM的试剂可以模拟细胞内的分子机制和信号通路,随后研究生物分子之间的相互作用和调节。例如,可以通过模拟多个代理(如蛋白质,核酸和代谢物)的行为和相互作用来分析细胞内信号转导,基因表达调控和代谢途径等生物过程。

生物系统以其固有的复杂性而闻名,表现在各种层次,时空尺度和时间范围上。鉴于此,代理商利用LLM必须证明在管理这种复杂性的熟练程度。这需要考虑不同生物实体的动态行为和相互作用,包括个体生物,种群及其各自的生态环境。此外,生物学领域内的数据通常表现出大量的、多样的、异质结构的和受固有噪声影响的属性。这在包含基因组、表型和环境信息的数据集中是显而易见的。因此,基于LLM的代理需要具备有效处理大量异构数据并从中提取有价值的见解和知识的能力。

5.1.4 Climate Science

在大气研究中,代理系统的使用主要跨越了气候行为的阐明和气候能源经济学的研究等领域。Jager [225]提出了一种新的基于代理的建模方法,该方法阐述了其在破译与气候相关的行为动力学的复杂性方面的实用性。此外,Castro等人[226]对以气候能源政策为中心的研究进行了全面审查,强调通过实施基于代理的建模方法来减少排放和节能。

在当前的研究领域,Kraus等人[227]利用基于LLM的代理从Climate Watch中提取排放数据,从而提供与气候变化的关键方面相关的更准确和可靠的数据。基于LLM的代理可以通过在不同的地理位置部署传感器网络来收集大气数据(例如,温度、压力、湿度、风速),并通过基于LLM的代理对这些数据进行实时分析和处理。这种方法可以进一步预测或发出大气现象和气候变化警报。相比之下,在气候模型模拟和优化领域,基于LLM的代理可以模拟各种大气过程和事件,如大气环流,气候系统和空气污染的传播。通过不断优化和修改智能体之间的交互规则,该模型可以更准确地反映现实世界的场景,最终为大气科学研究提供更精确的预测和解决方案。在气候模拟过程中,MAS的复杂性不断上升,对计算效率提出了实质性的挑战。提高基于LLM的代理的规划和重新考虑的性能对于在有限的计算资源内实现更精确的气候模拟和预测至关重要。此外,由于大多数大气数据是数值的,提高LLM的理解和计算能力的数值将显着影响系统的性能。

5.2 Universal Autonomous Agent

5.2.1 General Task Assistant

目前对通用任务助手的研究主要集中在基于LLM的Agent系统或框架上。通用智能体[18]是一种多模式、多任务和多实体的通用智能体,能够执行各种任务,例如玩Atari游戏、命名图像、聊天、用真实的机器人手臂堆叠积木等等。HuggingGPT [155]集成了来自机器学习社区不同领域的各种模块和AI模型来执行任务规划。ModelScope-Agent [228]是一个通用的,可定制的基于LLM的代理框架,用于实际应用,提供用户友好的系统库。LangChain是一个开源框架,通过自然语言通信和协作实现高效的软件开发。XLang [76]为基于LLM的代理提供了一套全面的工具和用户界面,支持数据处理,插件使用和Web场景。BabyAGI [59]基于预定义的目标创建任务,利用LLM创建新任务,并存储和检索任务结果。AutoGPT [75]是一种自动化代理,能够分解目标并在循环中执行任务。AgentVerse [84]允许基于多个基于LLM的代理执行不同角色快速创建模拟实验。LMA 3 [229]是一种利用LLM来支持各种抽象目标表示,生成和学习的方法。Kani [230]通过为基于聊天的交互提供核心构建块来帮助开发人员实现各种复杂的功能,包括模型接口,聊天管理和强大的功能调用。

虽然已经取得了显着的进步,在一般任务助理采用基于LLM代理的研究,一些挑战仍然存在。其中一个挑战是确定如何明智地控制任务分解的粒度,同时保持任务求解效率,最大限度地减少令牌消耗,并减少计算资源需求。另一个挑战涉及内存利用和信息集成:设计方法来更有效地利用存储在内存中的信息,合并来自不同来源的知识和数据,并提高基于LLM的代理在解决问题时的准确性和效率。此外,开发额外的工具和技术来支持各种环境中基于LLM的代理是必不可少的,增强了它们在一般任务助理中的适应性和可扩展性。最终,为基于LLM的代理提供长期学习和自适应能力对于在不断变化的任务和环境中不断改善性能至关重要。

未来的研究可能会研究更有效的自动任务分解和优化算法,使基于LLM的代理在面对复杂任务时能够自主执行合理的任务分解,从而提高解决问题的速度和质量。此外,将多模态信息处理技术集成到智能体中将有助于处理和集成来自不同模态的信息,例如图像、声音和视频,从而丰富任务助理的能力。

5.2.2 Work/Research Assistant

在工作和研究工作的背景下,积累大量的材料和文献可能是必要的,其次是通过理解进行总结,在实验和验证后对观点进行提炼,最终将其汇编成报告,论文,演示文稿或叙事和电影作品。这些步骤也可以委托给基于LLM的代理,这些代理可以浏览网页,数据库和文献库,通过LLM对其进行总结,生成用于验证的实验代码,然后起草结论。

在一般的文本生成中,ChatEval [16]采用了多智能体辩论框架,提高了处理复杂任务的效率和有效性。Zhu等人。[231]提出了一种启发式强化学习框架,可以在不需要偏好数据的情况下显着提高性能。在创建研究报告,故事和电视剧时,Maas等人[232]提出了一种基于LLM,自定义扩散模型和多智能体模拟的方法,以生成高质量的情节内容。GPT Researcher是一个能够产生详细,准确和公正的研究报告的自主代理。Boiko等人[65]提出了一种能够自主设计、规划和执行复杂科学实验的智能代理系统。在特定领域的应用中,Mehta等人[42]构建了一个智能体,它学习理解建筑师语言指令,并使用它们将块放置在网格上,旨在构建3D结构。LayoutGPT [233]与视觉生成模型合作,在各个领域产生合理的布局,从2D图像到3D室内场景。MusicAgent [234]整合了音乐相关工具和自主工作流程,包括音色合成和音乐分类,以满足用户需求。MemWalker [235]是一个为长文本阅读设计的交互式代理,它利用一种技术将广泛的上下文转换为摘要节点的树结构。当收到查询时,代理遍历此树以查找相关信息,并在积累足够的信息后生成响应。

与一般任务助理相比,工作和研究助理需要更强大的记忆和知识整合能力。增强基于LLM的代理的记忆容量对于在处理大量文本材料后有效组织、总结和检索信息至关重要。此外,有效地利用特定领域的工具,如代码和模拟器,验证实验是提高任务完成和准确性的关键。基于LLM的代理还应该展示更全面的跨领域知识和技能,以适应不同的工作和研究要求。最终,创新和原创性构成了重大挑战,因为有必要在工作和研究援助中加强LLM代理人的创造力和原创性,同时避免产生重复或过度相似的内容。

未来的努力,在LLM为基础的代理人的工作和研究援助可能会进一步深入到领域,如艺术创作的音乐和电影的生成,并纳入人机合作,以利用人类的知识,生产更多的原创作品,从而提供更大的便利,以人类的工作和创造力。

5.3 Social Sciences

5.3.1 Economics and Finance

现有的智能体和多智能体系统已被应用于经济和金融研究。亚瑟等人。[236]采用多代理模型来构建人工股票市场,探索金融市场问题,如资产定价,投资者行为和市场波动。Tesfatsion和Judd [237]全面介绍了基于主体的计算经济学方法及其在各个经济领域的应用。Johanson等人[238]证明了代理人使用MARL在空间中产生资源并以其偏好的价格进行交易的能力。《人工智能经济学家》提出了一个具有竞争压力和市场动态的经济模拟环境,通过以经济一致的方式展示基本税收制度的运作来验证模拟,包括学习和专业代理人的行为和专业化。蒂尔伯里[240]回顾了经典的基于代理的技术在经济建模中面临的历史障碍。AI经济学家:《用人工智能驱动的税收政策改善平等和生产力》提出了一种基于经济模拟的两级深度强化学习方法,用于学习动态税收政策,代理和政府进行学习和适应。

目前,许多研究都集中在经济学和金融学中基于LLM的代理人。Horton [30]通过将LLM置于不同的经济情景中并探索其行为,将LLM行为与实际人类行为进行比较。这使研究人员能够在独裁者游戏和最低工资问题等模拟中研究经济行为,从而获得对经济学的新见解。菲尔普斯和兰森[241]调查了委托代理冲突中的LLM响应,基于LLM的代理人在一个简单的在线购物任务中超越了委托人的目标,提供了委托代理冲突的明确证据,并强调了将经济原则纳入调整过程的重要性。AucArena [151]说明了基于LLM的代理在拍卖中的有效参与,有效地管理预算,保持长期目标,并通过明确的激励机制提高适应性。

在博弈论领域,怀疑代理[242]在各种不完美信息卡片博弈中表现出非凡的适应性。它表现出强大的高阶心理理论能力,表明它可以理解他人并有意影响他们的行为。许多研究已经调查了在金融交易场景的背景下使用基于LLM的代理。AlphaGPT [243]为Alpha挖掘引入了一个交互式框架,它采用启发式方法来理解定量研究人员使用的概念,随后生成创新,有见地和高效的Alpha。TradingGPT [244]提出了一种新的基于LLM的MAS框架,具有分层记忆,通过模拟人类认知过程来增强金融交易决策。这种方法使代理能够优先考虑关键任务,整合历史行动和市场洞察,并参与代理间的讨论,提高响应能力和准确性。

鉴于基于LLM的代理人增强的文本理解和复杂的决策能力,利用这些代理人进行经济和金融研究具有相当大的潜力。有关的探索可包括以下领域:

  • 市场模拟和仿真:建立基于LLM的代理来模拟各种市场参与者的行为,如供需双方,竞争对手和监管机构,可以使研究人员预测和模拟产品价格,市场份额,市场结构和交易完成率的数据。行为可以包括购买、竞争性投标、讨价还价和合作投标。
  • 金融市场分析:通过模拟金融市场参与者(包括投资者,机构和监管机构)的行为,基于LLM的代理可以提供对市场波动和风险的宝贵见解。例如,对投资者交易行为和市场信息传播过程的模拟可以预测股票价格、汇率和利率的波动。
  • 宏观经济和政策模拟:基于LLM的代理可以模拟财政和货币政策的实施过程,包括政府,企业和个人等各种经济行为体。这使得代理商能够预测宏观经济指标的变化,包括GDP,通货膨胀和失业率。
  • 社会经济网络分析:通过对社会经济网络中的信息传播、资源分配和信任建立等过程进行建模,基于LLM的代理可以更深刻地理解网络经济的演变和影响。具体而言,涉及不同主体(如消费者、企业和政府)的模拟可以提供对网络效应、信息不对称和市场失灵的见解。

在基于LLM的经济学Agent中,Agent交互的行为空间和Agent的状态起着至关重要的作用,直接影响着实验的结果。如何有效地表示交互作用空间和主体的状态,以更准确地模拟经济行为主体的决策过程,是一个重大的挑战。与此同时,LLM拟人化的可信度也是一个重大挑战。如果进行大规模的宏观经济分析,可能需要许多基于LLM的代理,这会给系统性能或令牌消耗带来困难。一种方法是使用强化学习方法来控制和减少与LLM的交互次数。

5.3.2 Politics

在以前的政治领域的主体研究中,Epstein和Axtell [245]使用MAS来构建人工社会,研究社会现象的形成和演变,包括政治学中的政治沟通和社会运动。Lustick和Miodownik [246]讨论了MAS在比较政治学研究中的应用,包括政治制度,政治决策和政治稳定。Tsvetovat和Carley [247]介绍了多主体模型在研究复杂社会技术系统中的应用,包括政治学中的政治沟通和政治决策。Trott等人。[248]利用两级RL和数据驱动模拟来实现有效,灵活和可解释的策略设计。

在目前基于LLM的代理研究中,这些代理被用来探索政治行为者的潜在决策和沟通情况。Ziems等人。[201]使用基于LLM的代理来帮助理解政治家演讲的内容和策略。Bail [249]证明了基于LLM的代理可以检测意识形态,预测投票结果并识别模式。Mukobi等人[250]提出了零和博弈外交的一般和变体。在这种变体中,代理人必须平衡在军事征服和国内福利方面的投资。

政治领域的LLM代理可以探索以下领域:

  • 政治模拟和预测:通过模拟政治过程中各种参与者的行为和相互作用,如政党竞争,选民行为和政策制定过程,基于LLM的代理可以预测政治事件的发展趋势,选举结果和政策效果。
  • 政治决策分析:采用基于LLM的代理来模拟不同政治决策过程的行为和互动,从而能够评估各种政策选择的优势,劣势和影响。这种方法使研究人员能够模拟政府、政党和利益集团之间的互动,为政策制定者提供有关政策效果的宝贵信息。
  • 国际关系研究:利用基于LLM的代理来模拟国际政治中国家之间的互动和冲突,研究人员可以探索国际贸易,军事冲突和外交互动等各个方面。这种方法有助于理解与国际政治相关的复杂性和潜在风险。

在政治学研究中,基于LLM的代理人可能需要确保沟通效率,同时避免过度礼貌和无效沟通,增强基于LLM的代理人在政治学研究中的实际应用价值。同时,准确地建模的复杂性和不确定性的政治环境,以提高政治领域研究的LLM为基础的代理的准确性和可靠性提出了一个挑战。当然,也有必要确保基于LLM的代理行为符合伦理和道德要求,避免不良的社会影响。

5.3.3 Society

在先前的社会学多智能体研究中,Epstein和Axtell [245]使用多智能体模型构建了一个人工社会,研究社会现象的形成和演变,如社会运动、文化演变和社会变迁。Macy和Willer [251]介绍了计算社会学和基于主体的建模方法,包括社交网络、社会规范和社会学中的社会影响。吉尔伯特和Troitzsch [252]为社会科学家提出了利用模拟方法的理论和实践,包括多主体模型在社会学研究中的应用。Hasan等人[253]讨论了可持续发展的支柱(例如,社会、环境和经济)。

目前,基于LLM的代理主要集中在模拟人类行为和社会互动。生成代理[63]提出了一种基于多LLM的代理交互模式,以实现对人类行为的可信模拟。Gao等人。[33]使用即时工程和调整技术来创建基于LLM的MAS,该MAS模拟真实世界的社交网络数据,包括情感,态度和交互行为。Li等人。[34]研究了类似Twitter的社交网络中LLM驱动的社交机器人的行为特征。结果表明,这些机器人可以通过有毒行为伪装和影响在线社区。Liu等人[254]提出了一种新的学习范式,使语言模型能够从模拟的社会互动中学习。Feng等人。[255]研究了基于LLM的代理在精心设计的环境和协议中模拟可信人类行为的能力。Wei等人[256]评估了多方群组聊天对话模型的性能,探索了增强模型性能的方法,并解决了话轮转换和对话连贯性的挑战。

另一方面,Li等人。[35]开发了一个意见网络动态模型来编码LLM意见,个人认知可接受性和使用策略,模拟LLM对各种场景下意见动态的影响。LLM-Mob [257]利用LLM的语言理解和推理能力,通过引入历史停留和上下文停留的概念来分析人类迁移数据,捕获人类移动的长期和短期依赖性,并采用预测目标的时间信息进行时间感知预测。Egami等人。[258]利用LLM输出对社会科学中的文档标签进行下游统计分析,同时保持统计特性,例如渐近无偏性和准确的不确定性量化。Ghaffarzadegan等人[259]探索了利用生成人工智能构建具有复杂反馈的计算模型的新兴机会,这些模型可以描述社会系统中的个人决策。Lyfe Agents [260]评估了各种多智能体场景中智能体的自我激励和社会能力。该方法结合了低成本和实时响应能力,同时保留了智能和目标导向性。

这些研究为基于LLM的代理在模拟人类行为和社会互动提供了各种方法和框架。由于基于LLM的Agent具有模拟人类交流和模仿人类思维的能力,这些Agent可以模拟可信的人类行为,参与多方群聊,在模拟环境中学习社交互动,处理记忆和规划任务,并在意见动态中表现出人类行为特征。

然而,这些研究也揭示了挑战,例如确保基于LLM的Agent在多方群聊中保持话轮转换和对话连贯性,以增强模拟人类行为和社会交互的真实性,并在模拟环境中有效地训练社会对齐的语言模型,以提高基于LLM的Agent在社会交互中的适应性和准确性。此外,基于LLM的代理必须为每个人类行为者实现多样性和个性化模拟,以更好地反映现实世界的社会现象。未来的研究可能会继续探索这些挑战,并提出更有效的方法来提高基于LLM的代理在模拟人类行为和社会互动方面的性能。

5.3.4 Law

在法律的领域对Agent和多Agent系统的研究中,Bench-Capon和Sartor [261]采用多Agent模型来检验法律的推理过程中的理论和价值,为法律的决策和法律的系统设计提供了新的理论和方法。Branting [262]使用多代理模型构建了一个计算法律的分析模型,研究了法律的规则和先例在法律的推理中的作用。

目前,在法律的领域,对基于LLM的代理人的研究有限。Blind Judgement [37]引入了基于Multi-LLM的代理,用于模拟2010年至2016年美国最高法院的司法判决,训练九个独立的模型来模仿不同法官的意见。Shui et al. [263]评估了LLM与专业信息检索系统集成时的功效,用于法律的领域内基于案例的学习和问答。

考虑到基于LLM的代理拥有强大的文本处理和理解能力,以及用于记录历史案例和决策的记忆机制,在法律的领域有很大的探索潜力,例如在以下领域:

  • 自主法律的助理:LLM代理人整合法律的规定和历史案例审查,为当前案例提供文件撰写和辅助建议。
  • 法律的决策分析:基于法学硕士的代理人模拟法律的决策过程中的各种参与者的行为和互动,包括法官,律师和诉讼当事人,以评估不同的法律的政策和法律的制度的优势,劣势,影响,公平性和效率。

由于法律的领域通常涉及大量的文本材料,因此基于LLM的代理中的LLM需要更长的上下文和更有效的内存功能。此外,有效地代表法律的知识,包括法律的规定,历史案例和法律的原则,并在基于LLM的代理中执行准确的法律的推理,对于在阅读和理解法律后做出决策或模拟至关重要。

5.3.5 Psychology

在以前的心理学研究中,Sun [264]全面介绍了在认知建模和社会模拟中应用多智能体交互,包括心理学中的认知过程,社会互动和情感动机。Marsella和Gratch [265]采用代理模型来模拟情感评估过程,从而更深入地理解情感心理学的基本原理。

目前,基于LLM的Agent主要集中在心理健康支持和心理实验模拟方面的应用。Ma等人。[266]对基于LLM的代理支持的心理健康支持应用进行了定性分析。该研究发现,该应用程序有助于提供按需的,非判断性的支持,增强用户的信心,促进自我发现。然而,它在过滤有害内容、保持一致的通信、记住新信息和减轻用户过度依赖方面面临挑战。Aher等人。[199]利用基于LLM的代理来模拟心理实验,揭示了LLM中可能影响下游应用的一些“超精确扭曲”。Akata等人。[200]采用基于LLM的代理来模拟博弈论中的重复博弈,发现基于LLM的代理在强调自我利益的游戏中表现得非常好,特别是在囚犯困境游戏中,并且表现出优先考虑自我利益而不是协调的心理倾向。这些研究为基于LLM的智能体在心理健康支持和心理实验模拟中的应用提供了多种方法和框架。这些基于LLM的智能体在提供心理支持、复制心理学发现、模拟博弈论实验等方面具有广阔的应用前景。类人智能体[267]构成了一个平台,用于开发模仿人类认知,交流和行为模式的智能体。这些智能体结合了逻辑推理能力,这些能力取决于特定的因素,例如满足基本需求,情感以及与他人的互动。Zhang等人。[268]研究了基于LLM的多智能体社会反映人类协作智能的潜力。

心理学领域的LLM代理人可以在未来探索以下领域:

  • 心理治疗和咨询:通过模拟心理治疗和咨询过程中的互动和影响,基于LLM的代理有助于更深入地了解研究人员的心理治疗和咨询心理学的基本原则,并支持接受心理治疗的患者。
  • 认知建模:通过模拟认知过程,如感知,记忆,思维和决策,基于LLM的代理人提供认知心理学的核心原则的见解。具体来说,这些智能体可以通过模拟个人在各种情况下的认知过程来分析认知偏差和策略。
  • 情绪和动机建模:利用LLM和记忆来模拟情绪和动机过程,基于LLM的代理使研究人员能够通过检查个人的情绪反应,兴趣和驱动力来探索情绪和动机心理学的基本原则。

然而,这些研究也揭示了挑战,例如有效过滤有害内容,保持一致的通信,实现更多的拟人化通信或模拟,以及解决用户过度依赖问题。未来的研究可能会继续探索这些挑战,并提出更有效的方法来提高基于LLM的代理在心理健康支持和心理实验模拟中的表现。

5.3.6 Education

在现有的Agent和Multi-Agent研究中,Woolf [269]介绍了构建智能交互式导师的方法和技术,包括使用Agent和Multi-Agent系统实现个性化教学和自适应学习。索勒和Lesgold [270]提出了采用多代理模型来分析在线知识共享交互的计算方法,以改善教育组织和管理。

由于其强大的自然语言交互能力,基于LLM的代理促进了与人类的有效沟通,这对于帮助人类学习或模拟教育领域的课堂非常有用。有关研究援助,请参阅研究援助部分。Math Agents将数学公式从文献转换为LaTeX和Python格式,利用LLM作为语言用户界面和人工智能助手,以促进数学和计算机科学之间的互动。AgentVerse [84]是一个基于LLM的MAS框架,模拟NLP课堂教育。CGMI [168]是一个通用的多智能体交互框架,模拟教师和学生之间的各种课堂互动,实验结果表明,教学方法,课程和学生的表现非常接近真实的课堂环境。此外,基于LLM的代理可以模拟未来教育政策和系统的实施过程,帮助研究人员评估不同教育策略的优点,缺点和影响。例如,通过模拟政府、学校、教师和学生的行为,MAS可以预测学术投入、质量和公平性的变化。

在教育领域,基于LLM的代理的主要挑战是输出无害,更可信的内容,以提高教育质量。另一个挑战是多样性和个性化:教育针对不同的学生,在基于LLM的代理系统中为每个学生实施个性化教学和自适应学习仍然是一个重大挑战。此外,尽管LLM拥有强大的自然语言交互能力,但在理解学生的问题,表达和情感方面还有改进的空间,以更好地满足他们的学习需求。

5.3.7 Management

在Agent和多Agent系统领域的现有研究中,North和Macal [271]全面介绍了应用基于Agent的建模和仿真来管理业务复杂性。这包括组织行为学,人力资源管理和管理学中的市场营销。Bonabeau [272]介绍了基于代理的建模方法及其在模拟人类系统中的应用,包括管理领域的组织行为,供应链管理和金融市场。Liu et al. [273]将MARL应用于多级库存管理问题,旨在最小化整体供应链成本。

目前,管理领域中基于LLM的代理主要专注于模拟公司和组织的运营。例如,MetaGPT [67]和ChatDev [66]模拟了软件公司中的多个角色,用于协作软件开发。MetaAgents [274]利用模拟的招聘会环境作为案例研究来评估代理的信息处理,检索和协调能力。结果表明,这些代理人在理解项目工作流程,识别适当的合著者和委派任务方面表现出色。可在以下领域进行进一步探索:

  • 组织行为和协作工作:通过模拟组织中员工,团队和管理人员的行为和互动,LLM为基础的代理作为研究人员研究协作工作流程的宝贵工具,增强对组织结构,文化,领导力和效率的理解。
  • 公司辅助运营:协助公司和组织的运营,基于LLM的代理人通过报告,信息汇总,处理,审批和决策来提高效率,从而提高公司运营的效率,公平和透明。
  • 供应链管理和物流优化:研究人员可以通过采用基于LLM的代理来模拟资源分配和协作决策过程,从而有效地分析和优化供应链管理和物流。这是通过对供应商,制造商,分销商和零售商的行为和互动进行建模来实现的,允许基于LLM的代理商解决供应链库存管理,运输计划和需求预测问题。

管理问题往往涉及多个层次、角色和目标。在基于LLM的代理中有效地解决这些复杂性和可扩展性问题仍然是一个重大挑战。此外,管理研究通常依赖于各种历史和实时数据形式。基于LLM的代理需要有效地理解不同格式的历史数据。

5.4 Engineering Systems

5.4.1 Computer System

在计算机科学中,对主体和多主体系统有许多成熟的研究。这些研究主要集中在计算机操作任务,人机交互,代码生成和测试,网络安全,游戏和推荐系统应用。

  • 计算机操作:RCI [138]采用自然语言命令来指导LLM完成计算机任务。Mobile-Env [141]基于Android for移动的设备环境,使智能代理能够观察Android操作系统屏幕截图,查看层次结构,并与Android应用程序交互。
  • 人机交互:Lin等人[275]介绍了一种称为决策导向对话的协作任务。在这些任务中,人工智能助手通过自然语言与人类合作,以协助做出复杂的决策。SAPIEN [276]引入了由LLM驱动的高保真虚拟代理平台,允许使用13种语言与用户进行开放域对话,并通过面部表情和语音调制表达情感。在Web交互中,WebAgent [277]提出了一种模型,该模型集成了两种语言模型-领域专家语言模型和通用语言模型-用于真实的网站上的自主导航。WebArena [139]是一个独立的,自托管的Web环境,用于构建自治代理。SheetCopilot [142]使用自然语言促进与电子表格的交互,将复杂的请求转换为可操作的步骤。
  • 网络安全:Rigaki等人[278]提出了一种使用LLM作为攻击代理的方法,应用于强化学习环境。代码生成:GPT-Engineer [43]易于适应和扩展,允许基于LLM的代理根据提示生成整个代码库。Dong等人[68]允许多个LLM扮演不同的角色,形成一个没有人为干预的团队,在代码生成任务上进行协作。ChatDev [66]探索使用LLM驱动的端到端软件开发框架,涵盖需求分析,代码开发,系统测试和文档生成,以提供统一,高效,经济高效的软件开发范式。CAAFE [279]使用LLM来生成和执行表格数据集上的特征工程代码。AutoGen [83]提供了一个基于LLM的自主代理,它可以根据提示生成整个代码库。
  • 软件测试:LLift [145]是一个静态分析工具和LLM的接口,使用精心设计的代理和提示进行完全自动化。Feldt等人。[280]提出了一种基于LLM的自主测试代理,它提供了一个对话框架来帮助开发人员进行测试,并强调了LLM错觉在测试中的好处。RCAgent [281]是一种工具增强型代理,用于云环境中的实用和隐私感知工业根本原因分析(RCA)。
  • 推荐系统:RecAgent [282]使用LLM作为大脑,推荐模型作为工具,创建了一个通用的交互式推荐系统。Agent 4 Rec [283]包括用户配置文件、存储器和动作模块,并通过网页进行交互,以提供个性化的电影推荐。
  • 角色扮演游戏:VOYAGER是Minecraft中的终身学习代理,由LLM驱动,不断探索世界,获得各种技能,并进行发现。GITM [51]提出了一个框架,通过将长期和复杂的目标转换为一系列最低级别的键盘和鼠标操作来实现高效和灵活的操作。Junprung [284]提出了两个模拟人类行为的智能体:两个智能体的谈判和六个智能体的谋杀神秘游戏。Zhou et al. [47]提出了一个对话塑造框架,允许LLM通过对话从NPC获得有用的信息并将其转换为知识图,然后使用故事塑造技术来加速RL代理收敛到最佳策略。Clembench [285]开发了一个灵活且可扩展的框架,使用会话游戏作为测试工具,以快速评估各种模型。Tachikuma [286]提出将虚拟游戏大师(GM)整合到代理的世界模型中。GM在监督信息、估计玩家意图、提供环境描述、提供反馈以及解决当前世界模型的局限性方面发挥着至关重要的作用。Xu等人[170]在不调整LLM参数的情况下有效地进行了狼人游戏,并在实验中表现出策略行为。MindAgent [181]提出了一种新颖的游戏场景和相关的基准,便于评估多智能体协作效率,并能够同时监督参与游戏的多个智能体。
  • 游戏生成:Chen等人。[287]设计了一个基于文本的冒险游戏想象游戏系统,该系统基于ChatGPT生成与想象游戏相关的故事。GameGPT [288]利用双代理协作和分层方法,采用多个内部字典来自动化游戏开发。

尽管取得了一些成就,但在计算机科学中,基于LLM的代理存在许多研究方向和挑战。例如,在代码生成和测试中,LLM的编码能力是必不可少的,如何提高基于LLM的代理的代码质量和测试结果是值得注意的问题。在网络安全、推荐系统等方面,充分利用基于LLM的代理的优势,解决存在的问题,还需要进一步的研究。对于计算机操作和人机交互,基于LLM的代理必须掌握更多的工具使用能力,以实现更多的功能。此外,通过构建自适应学习和基于LLM的长期发展代理系统,他们可以在面对不断变化的计算机科学问题时不断提高性能。

5.4.2 Robotics System

在以前的机器人智能体和多智能体系统的研究中,帕克等人。[289]介绍了对多移动机器人系统和多机器人之间的协作控制问题的研究。Busoniu等人[290]讨论了机器人学习和智能问题。

在目前的工作中,基于LLM的机器人智能体研究,主要集中在机器人任务规划。Di Palo等人[55]提出了一个框架,该框架利用语言作为核心推理工具,模拟机器人操作环境,并在探索效率和离线数据重用方面表现出显着的性能改进。ProgPrompt [291]提出了一种程序化的LLM提示结构,便于跨各种环境和机器人功能任务进行任务规划。Huang等人。[292]研究了LLM如何在机器人控制情况下通过自然语言反馈执行推理,而无需进一步培训。TaPA [146]提出了一种在物理场景约束下在真实的世界中进行规划的方法,其中代理通过基于场景中的对象对齐LLM和视觉感知模型来生成可执行计划。LLM-Planner [49]利用LLM的强大功能为具体代理进行样本高效规划。Xiang et al. [293]用世界模型微调LLM以获得不同的体现知识,使用这些经验进一步微调LLM,并在各种物理环境中实现推理和行动。3D-LLM [294]接受3D点云及其特征作为输入,完成一系列与3D相关的任务。ProAgent [71]可以预测队友即将做出的决定,并为自己制定增强的计划,在合作推理中表现出卓越的性能。此外,它可以动态调整其行为,以改善与队友的协作。

基于LLM的代理在提高自动化水平,支持多场景应用程序,实现高效的任务执行方面具有很大的潜力。未来的研究可能会继续解决这些挑战或调查以下方面:

  • 多机器人协同控制:基于LLM的智能体非常适合于模拟多机器人系统中的协作控制和任务分配,帮助研究人员提高此类系统的协作性能和执行效率。例如,研究人员可以通过模拟各种类型的机器人,任务和环境的行为和交互来分析多机器人任务分配,路径规划和协作策略。
  • 无人机群飞行与控制:基于LLM的智能体可以模拟无人机群飞行中的群控制、路径规划和避障,帮助研究人员分析无人机群的飞行稳定性、编队变化和安全飞行。

同时,基于LLM的代理必须更全面地解决复杂的环境适应和建模问题,因为机器人技术包含许多复杂的环境和任务,需要准确处理复杂的问题。此外,机器人必须处理实时多模态数据并做出决策,这意味着智能体还应表现出快速响应和多模态处理能力。

5.4.3 Power System

基于Agent和Multi-Agent系统的电力能源系统已经有了许多成熟的应用。例如,Kilkki等人[295]全面回顾了智能电网中基于代理的建模和仿真应用。介绍了智能电网的特点和面临的挑战。对基于Agent的建模与仿真方法进行了分类和比较,探讨了智能电网中基于Agent的模型在不同场景下的应用。Merabet等人[296]回顾了智能电网中的MAS,介绍了MAS的概念和特点,讨论了MAS在智能电网中的应用场景、关键技术和挑战。Ghazzali等人[297]使用滑动模式和多代理一致性设计方法,研究了孤岛微电网中的固定时间分布式电压和无功功率补偿。Shinde和Amelin [298]回顾了各种电力市场中基于代理的建模应用的文献。May和Huang [299]使用MARL为气候变化情景下的能源市场设计动态定价政策。

基于LLM的电力能源智能体研究正在发展中,相关研究相对较少。未来的研究可探索以下方向:

  • 智能电网管理和优化:通过模拟发电厂,输电线路和用电设备的行为和交互,基于LLM的代理可以有效地模拟智能电网中的挑战。这些挑战包括发电、输电、配电和用电管理。电网稳定性,能源效率和电力调度的评估也可以与这些代理。
  • 分布式能源资源调度:分布式能源资源的调度和优化,如太阳能,风能和储能设备,可以使用基于LLM的代理进行建模。这些代理允许检查分布式能源的发电效果,市场竞争和能源互补性。
  • 能源市场和交易机制:基于LLM的代理适合模拟能源市场中的问题,如供需平衡,价格形成和交易机制。准确地说,它们可以模拟能源生产者、消费者和交易平台的行为和互动,分析能源市场的竞争格局、价格波动和交易效率。

大规模集成和协同优化在可再生能源和分布式能源的背景下提出了重大挑战。为了实现电力系统的高效运行和可持续发展,基于LLM的代理必须考虑各种能源类型,多级电网结构和复杂的市场环境。此外,制定相关的技术标准和规范是必要的,以促进多智能体系统在智能电网中的广泛应用和推广。这将增强这些系统的互操作性和可扩展性,同时降低集成的难度和成本。通过广泛的研究和创新,基于LLM的代理预计将在智能电网管理和优化,分布式能源资源调度以及能源市场和交易机制中发挥至关重要的作用,最终有助于电力系统的可持续发展。

5.4.4 Transportation System

交通问题引起了人们对智能体系统的广泛研究兴趣。MARL可用于协调多个交通信号,以优化交通流,减少拥堵,提高道路交通效率。Zeng等人[300]介绍了一种利用深度Q学习控制交通信号的方法。Chu等人[301]应用分布式MARL技术来协调大规模城市道路网络中的交通信号,以最大限度地减少交通拥堵。

基于LLM的交通代理研究目前处于起步阶段。Da等人。[302]采用LLM通过基于上下文的推理提示来理解和分析系统动力学。通过利用LLM的推理能力,可以了解天气条件,交通状况和道路类型如何影响交通动态。随后,智能体根据真实世界的动态采取行动,并相应地学习更现实的策略。LLM GPT [149]将LLM与交通领域的专业知识相结合,以提高交通管理的有效性。此外,它使LLM具有可视化,分析和处理交通数据的能力,为城市交通系统管理提供有价值的决策支持。DiLu [303]集成了推理和反射模块,允许自动驾驶系统基于常识知识做出决策。

基于LLM的智能体可以在交通领域进行以下方面的研究和贡献:基于LLM的智能体可以管理交通信号,根据实时交通流量和需求进行优化,以减少拥堵和等待时间。与传统方法相比,调度员可以通过自然语言调整信号周期。然而,由于涉及多目标优化和决策,LLM的推理和决策能力面临重大挑战。另一方面,基于LLM的智能体可以用来模拟交通流过程中车辆行驶和道路状况的变化,帮助研究人员了解交通流的特性和影响因素。例如,通过模拟车辆、道路和交通信号的行为和交互,基于LLM的代理可以分析交通拥堵、事故和效率问题,与原始实现相比,提供了更高程度的模拟,因为基于LLM的代理模拟车辆更接近人类决策。

对于交通系统而言,有效处理实时数据并根据实时交通流量和需求优化决策通常至关重要。基于LLM的代理需要表现出快速的响应速度。此外,当面临多个优化目标和决策因素时,有效地实施交通信号控制和调度策略仍然具有挑战性。

5.4.5 Industrial Control System

在Agent和多Agent研究领域,Shen和Norrie [304]回顾了基于Agent的智能制造系统的研究现状,特别强调了生产调度和资源优化问题。Shen等人[305]全面研究了智能制造领域中基于代理的系统应用。

目前,工业控制和工程中基于LLM的代理应用包括Xia等人的研究等工作。[69],该研究引入了一个创新框架,将LLM,数字孪生和工业自动化系统集成在一起,用于智能规划和控制生产过程。作者建立了两类智能代理:一个管理代理在自动化模块的顶点运行,负责协调各种模块的技能来制定生产计划,和一个操作代理位于一个特定的自动化模块,编排多个功能来执行所提供的技能。在节能照明系统中,[306]采用传感器,执行器和神经网络,通过整合GPT-4实现上级决策和适应性,而无需大量培训。在芯片设计领域,Li等人[307]利用基于LLM的代理来帮助开发时域有限差分(FDTD)仿真代码和深度强化学习代码,最终优化了光子晶体表面发射激光器(PCSEL)结构,用于先进的硅光子学和光子集成电路应用。

基于LLM的代理在工业过程控制和优化中的潜力是有希望的,包括数据收集模拟,控制策略制定和设备修改等任务。基于LLM的代理可以通过模拟传感器,控制器和执行器的行为和交互来评估工业过程的稳定性,生产效率和能耗。基于LLM的代理面临的一个挑战是弥合现实世界的任务规划和文本任务规划之间的差距,从而增强其在工业过程控制和优化的实用性。另一个挑战涉及解决复杂性和可扩展性问题,这些问题来自工业过程控制和优化中固有的多个级别、角色和目标。

5.4.6 Medical System

代理系统在医学和制药研究中有许多应用,包括药物发现和优化,药物机制探索和药代动力学模拟等领域。一个[308]演示了基于代理的计算机模拟在生物医学研究中的应用,包括药物发现和优化过程。Ekins等人。[309]提出了用于高通量数据分析的基于代理的途径映射工具,涵盖药物机制研究和药物靶标鉴定等方面。步行者等人[310]提出了一种基于代理的细胞社会行为模型,用于模拟个性化药物治疗和精准医疗。Singhal等人。[311]讨论了医学和临床领域中LLM的增强。Zhavoronkov等人。[312]开发了生成张量强化学习(GENTRL)来设计新型小分子,优化合成化合物的可行性,新奇和生物活性。

目前,医学科学中基于LLM的药物研究仍然相对较少。威廉姆斯等人[64]引入了一种新的个体模型范式来应对将人类行为纳入流行病模型的挑战,其中代理人在流行病时期之后表现出多波流行病模式,反映了最近大流行病中观察到的模式。Lobentanzer和Saez-Rodriguez [313]采用一般和生物医学特定的知识来解决LLM幻觉问题,并无缝集成流行的生物信息学技术,增强其实用性和可靠性。Mehandru等人。[314]提出了一种新的评估框架,称为“医学智能结构化临床检查”(“AI-SCI”),用于评估LLM代理在现实世界临床任务中的表现。

基于LLM的代理在医学和制药研究领域具有巨大的潜力,包括以下方面:

  • 疾病传播和流行病学建模:通过模拟疾病传播中各种媒介的行为和相互作用,包括感染者,易感者和康复者,以及个体流动性,社会行为和疾病状态改变等过程,研究人员可以更深入地了解疾病传播动力学并制定有效的控制策略。
  • 药物发现和优化:基于LLM的药物可用于复制药物发现中的筛选,优化和评估程序,从而帮助研究人员识别具有特定效果和应用的新药。具体而言,通过模拟药物分子,靶蛋白和生物过程的行为和相互作用,LLM代理可以检查药物的结构-活性关系,药效学和药代动力学。

然而,该领域涉及许多高度复杂的生物系统,在确保模型准确性的同时解决这些复杂性问题仍然是一个重大挑战。

5.4.7 Military System

智能体和多智能体系统(MAS)在军事研究中有着巨大的潜力,特别是在帮助研究人员通过模拟和仿真来理解军事问题的复杂性和动态性方面。Ilachinski [315],Cil和Mala [316]介绍了基于多智能体的战争模拟方法,包括战争模拟和战术分析,军事情报和决策支持。Sycara和Sukthankar [317]回顾了团队合作模型的进展,包括基于多智能体的军事通信和指挥控制系统。

目前,有有限的研究在军事领域基于LLM的MAS。未来的探索可以集中在战争模拟和战术分析,其中基于LLM的MAS可以用于模拟战争期间的作战行动和战术决策。这可能涉及模拟作战单位,指挥官和地形环境与多个合作或对立的代理。这种模拟有助于研究人员评估各种战术方案的优缺点,分析作战效能、战场态势和战术优势。另一个感兴趣的领域是军事情报和决策支持:基于LLM的代理可以用来实现军事情报和决策支持,从而提高指挥决策的准确性和效率。准确地说,智能体可以模拟情报收集、分析和决策,实现实时情报分析、预警和战略规划。基于LLM的代理可以在不同的军事场景中利用其强大的泛化能力进行规划,分析和决策。

尽管如此,军事研究往往需要考虑许多因素,例如确保高度逼真的模拟环境,结合更准确的战场地形,天气条件,作战单位性能和多层次(例如,战略、作战、战术)和多领域(例如,陆、海、空、太空、网络)因素。与人类决策者的有效协作对于准确反映作战行动和战术决策的复杂性和动态性至关重要。同时,必须解决法律的和道德问题。随着人工智能技术在军队中越来越普遍,法律的和道德考虑的重要性也越来越大。

6 Discussion

6.1 Trend

6.1.1 Evaluation

基于LLM的代理在各个领域都表现出了卓越的能力,包括指定的任务解决,合作和人机交互。然而,以量化和客观的方式评估其业绩仍然是一项挑战。

  • 基础能力:随着基于LLM的代理研究领域的不断发展,这些代理的基本能力已经达到了相对稳定的阶段,强调了对这些基本能力进行标准化评估的迫切需要。值得注意的是,Minecraft [50,51,134]和Tachikuma [286]等基准已经被引入,以衡量基于LLM的代理在理解复杂问题和进行逻辑推理方面的理解。此外,AgentSims [143]是一个多功能的框架,用于评估代理的规划和决策技能,包括在各种情况下做出明智决策的能力。AgentBench [318]提供了一个全面的平台,用于全面评估代理的基础能力。基于LLM的代理评估工具和资源利用率已经获得了相当大的研究关注。随着这一领域更加标准化和微调的评估指标和协议的发展,它将不断发展。值得注意的是,ToolBench [196]和Gentopia [163]通过确定智能体如何有效地利用各种工具和资源来完成任务,为这一评估方面做出了贡献。目前,检索能力在网上购物场景中进行评估,如WebShop [194]和WebArena [139]。信息检索是基于LLM的代理获取更新的知识,这应该包括在工具利用率的基准是必不可少的。记忆存储,检索和记忆形式机制是基于LLM的代理保持长期的上下文理解和有意义的行为的关键设计。记忆能力中的量化指标和精心设计的基准已经在[319]中讨论过,并且应该包括扩大的任务和指标,以促进基于LLM的代理的更多的记忆行为。
  • 基于领域的评估:评估基于LLM的代理的性能需要对执行环境和指定任务进行基准测试。仅仅依靠MBPP [192]和HumanEval [193]基准是不够的,因为基于LLM的代理可以观察运行时执行结果并执行代码重新生成,例如MetaGPT [67]和ChatDev [66]。因此,有必要设计任务级定义和评估协议,如AgentBench所示。此外,在法律和医学等不同领域开发和宣布基于任务的基准是推动特定领域LLM代理的研究和应用的必要条件。这些基准是评估这些人员在专门领域的效力和能力的重要参考点。同时,在心理学中,评估指标,如基于LLM的代理的情感评估和关于应用基于LLM的代理的治疗结果评估,依赖于人类的反馈和比较,如tse Huang等人所报告的。[320],数据集和评估机制是必不可少的。

6.1.2 Continual Evolution

当在复杂和动态的环境中运行时,基于LLM的代理通常需要不断发展的能力,相应地调整其参数,内存和目标。

  • 持续学习和自我训练:基于LLM的代理的一个重要方面是他们持续学习和适应的能力。随着任务和领域的发展,智能体必须获得新的知识和技能,而不会丢失以前学到的信息。终身学习和元学习等技术可以增强智能体的推理能力,使其能够将知识概括和应用于新的情况。此外,有效地利用代理的记忆可以提高其内在的泛化能力。开发有效的持续学习和自我培训机制对于法学硕士代理人在各个领域的长期成功和适用性至关重要。这一领域的研究应该集中在设计强大的算法和模型,使代理从不同的信息源,包括文本数据,用户交互和现实世界的经验学习。
  • 自我评估和动态目标:基于LLM的代理应该具备自我评估和目标设定能力,以提高性能并适应不断变化的环境。对于代理人来说,评估来自环境的反馈并理解对其行为的任何批评至关重要。基于LLM的代理可以有效地从反馈中学习,并利用更有效的编程机制提取和保留关键经验。基于LLM的代理可以评估信号或定量指标和定性反馈,提高他们处理评估的能力。这种能力包括评估自己的长处和短处,确定需要改进的地方,以及制定现实的自我改进目标。代理商还应该监控他们朝着这些目标的进展,并做出必要的调整,以保持在轨道上。开发自我评估和动态目标设定机制将使基于LLM的代理变得更加自主和自适应,从而提高性能和更有效的人机协作。
  • 适应性:基于LLM的代理的成功关键取决于他们适应新环境,任务和用户偏好的能力。这种适应性包括几个方面,包括理解和适应用户需求,适应不同的沟通方式,以及快速学习新的任务和领域。这一领域的研究应该集中在创建模型和算法,使代理能够从他们的经验和与用户的交互中学习,从而使他们能够相应地调整自己的行为和策略。开发强大的LLM和Rethink技术也将使基于LLM的代理能够在新的情况下应用他们的知识和技能,最终导致更通用和有效的代理。

6.1.3 Enhancement of Multimodal Capabilities

智能体必须管理现实世界中的多模态信息,包括图像、视频和语音。额外的多模态模型的结合可以装备基于LLM的代理与多模态专业知识。这个过程通常需要将多模态输入转换为文本数据,利用LLM进行推理和规划,并采用多模态模型进行输出生成。例如,MMReact [321]将ChatGPT与视觉专家池集成在一起,以实现多模态推理和动作。IdealGPT [322]是视觉推理迭代分解的框架,采用LLM生成子问题,多模态模型提供相应的子答案,LLM推导最终响应。Di Palo等人。[55]提出了一个框架,该框架将从头开始训练的基于RL的代理与LLM和多模式模型的高级功能融合在一起。智能体可以通过语言解释其多模态环境、任务和动作。TaPA [146]通过将LLM和视觉感知模型与物理场景约束相结合来生成可执行计划。ViperGPT [323]使用代码生成模型将视觉和语言模型结合起来,为任何查询生成结果。

相反,最近的大型多模态模型(LLM),如GPT 4-V [324],miniGPT-v2 [325],LLaVA [326]和PALM-E [327],表现出强大的图像内容理解能力。将来,当使用LLM构建代理时,在将图像输入LLM之前,将不再需要将图像转换为文本。相反,LMM可以根据当前图像输入直接执行多模式任务规划和重新考虑,提高信息利用效率和多模式任务处理性能。

6.2 Challenges

6.2.1 Intrinsic Constraints of LLMs

法学硕士为基于法学硕士的代理人提供基础,促进规划和重新考虑能力、自然语言表达以及跨不同任务的强大概括。然而,LLM经常面临由于上下文长度的限制[14],这可能导致在处理大量文章或复杂对话时丢失重要信息[328]。另一个问题是LLM产生无效数据和幻觉[329]。尽管LLM能够产生流畅且表面上合理的文本,但它们可能会产生不相关,无效甚至错误的信息。这种现象是由于LLM在训练期间获取无关数据或不正确的模式而引起的。这些问题极大地影响了LLM的功效,随后影响了基于LLM的代理和基于LLM的MAS的整体性能。

6.2.2 Dynamic Scaling

随着基于LLM的MAS的部署变得越来越普遍,系统必须能够在各种硬件和软件环境中动态扩展,根据需求调整其规模和性能。然而,动态缩放的实施提出了若干挑战,包括:

  • 适应性:系统必须能够调整其规模和性能,以满足不同的任务要求和计算环境。这需要强大的自适应能力,包括自动调整代理的数量,各种内存空间的大小和转换策略。研究人员可以采用自适应算法,如强化学习和遗传算法,进行自动优化和调整,以实现这种适应性。
  • 资源分配和管理:动态扩展需要MAS的计算和存储资源的自适应扩展。在CPDE MAS的情况下(第3.2.2节),其中单个LLM负责角色分配和行动规划,动态缩放必须考虑LLM相对于不同数量的代理的分配和规划以及LLM推理的资源消耗。例如,Yue等人。[330]探索了LLM级联的构建,以降低使用LLM的成本,特别是在执行推理任务时。

6.2.3 Security and Trust

适当权限的分配和系统安全的保证对于基于LLM的代理至关重要[331]。鉴于这些代理可以交换信息和资源,过多的权限可能会导致错误的决策和操作,影响整体系统性能并引发安全问题。我们如何防止有害的错误,从而维护人类和企业来之不易的信任?为了解决这个问题,必须制定一个有效的许可分配机制,促进不同代理之间的有效合作,而不超过其指定的权限。此外,进行可靠性测试的重要性怎么强调都不过分。例如,ToolEmu [332]利用LLM来模拟工具执行,展示了其在各种工具和场景中评估基于LLM的代理的能力。这种方法能够检测代理故障并量化相关风险。

7 Conclusion

本文综述了基于LLM的Agent的研究现状、应用和前景。它首先追溯了从代理到基于RL的代理,再到基于LLM的代理的发展,然后介绍了基于LLM的代理的基本概念,包括它们的定义,规划能力,记忆,反思能力,行动和外部环境。随后,本文详细阐述了多角色关系,规划类型,并加强通信方法的LLM为基础的MAS。此外,它讨论了潜在的发展前景和挑战的法学硕士为基础的代理人在各个领域,并提出了可能的解决方案。最后,本文探讨了基于LLM的Agent的发展趋势和面临的挑战,如LLM的固有局限性,MAS的动态扩展,以及安全和信任问题。虽然目前的研究还远远没有实现AGI,但我们相信基于LLM的代理可以代表向前迈出的重要一步。

以上内容全部使用机器翻译,如果存在错误,请在评论区留言。欢迎一起学习交流!


http://www.kler.cn/a/420977.html

相关文章:

  • unordered系列容器模拟实现
  • SQLite:DDL(数据定义语言)的基本用法
  • 点云3DHarris角点检测算法推导
  • 前端跳转路由的时候,清掉缓存
  • 6.824/6.5840(2024)环境配置wsl2+vscode
  • 大R玩家流失预测在休闲社交游戏中的应用
  • C语言经典题目详解(PTA题目)
  • c++领域展开第一幕——入门基础(命名空间、iostream、缺省参数、函数重载、nullptr、inline(内联函数))超详细!!!!
  • 【adb】AndroidStudio调试
  • 【python】列表
  • 面对深度伪造:OWASP发布专业应对指南
  • Java Web 1HTML快速入门
  • 代码随想录-算法训练营day29(回溯算法05:非递减子序列,全排列,全排列2)
  • 【C++算法】28.前缀和_除自身以外数组的乘积
  • 【C++高级开发应用篇】探索C++20中的协程:异步编程的强大工具
  • GDPU Android移动应用 使用多媒体
  • 使用 Vite 快速搭建 Vue 2开发环境
  • 001-SpringBoot整合日志
  • 神经网络入门实战:(十一)池化层搭建,以及填充层的说明
  • 解读 77页2024 集团企业IT技术架构规划方案
  • k8s使用的nfs作为sc。
  • 传统客服中心和呼叫中心客服系统的区别
  • 时间序列模型在LSTM中的特征输入
  • AlmaLinux8.10安装samba实现与Windows文件共享
  • 获取联通光猫的管理员密码
  • 【AI日记】24.12.03 kaggle 比赛 Titanic-6