当前位置：首页 > article >正文

AI智能体崛起：从“工具”到“助手”的进化之路

article 2025/4/2 12:26:31

AI智能体的崛起

AI智能体的定义与决策模型

AI智能体的特点与优势

AI智能体的应用与类型

面临的挑战

未来展望

近年来，人工智能领域的焦点正从传统的聊天机器人（Chat Bot）快速转向更具潜力的AI智能体（AI Agent）。作为大模型驱动的新兴产物，AI智能体正在重新定义人工智能的应用边界，成为科技行业的下一个风口。

AI智能体的崛起

AI智能体在技术与功能上的突破吸引了广泛关注。例如，AI智能体 Devin 被誉为“第一位由AI担任的软件工程师”，能够自主学习新技术、生成代码、调试bug以及部署应用，成为AI智能体的典型代表。这类智能体不仅可以代替现有的许多软件工具，还能帮助人类完成工作中的繁琐任务，如撰写文案、设计图纸、制作视频甚至编写代码。

OpenAI、微软、Meta和谷歌等科技巨头纷纷在AI智能体领域加速布局：

OpenAI 宣布将在2025年1月推出一款能够协助编写代码和规划旅行的AI智能体。
Anthropic 则发布了一款名为 Claude 3.5 Sonnet 的AI智能体，能够通过屏幕截图模拟人类与计算机的交互。
微软已组建全球最大的AI智能体生态系统，并通过 Copilot Studio 帮助企业打造定制化的AI智能体，赋予其执行复杂任务的能力。
谷歌的 Jarvis 项目将智能体嵌入 Chrome 浏览器，模拟人类操作，从分析内容到在线购物皆能胜任。

据 PitchBook 统计，过去一年，AI智能体领域的初创公司吸引的投资金额同比增长80%以上，相关交易数量达156笔，涵盖法律、税务等多个行业的智能体应用。

AI智能体的定义与决策模型

尽管AI智能体的研究仍处于早期阶段，但行业内已有一些较为一致的共识：

AI智能体是一种更先进的人工智能工具，能够感知环境、模拟人类思考与决策，执行复杂任务并从反馈中学习。
它可与其他软件或工具交互，像职场助手一般处理简单任务或与专家协同解决复杂问题。

AI智能体的决策流程可以通过PPMA模型（感知 Perception、规划 Planning、记忆 Memory、行动 Action）来概括：

感知（Perception）： 通过文本、图像或声音收集环境信息，为智能体理解世界提供基础。例如，自动驾驶中的雷达和摄像头。
规划（Planning）： 根据目标制定决策并将复杂任务分解为可执行步骤，如AI项目管理工具规划任务时间表。
记忆（Memory）： 包括短期和长期记忆，用于存储和检索信息。例如，科研智能体保存历史数据以加速新项目进程。
行动（Action）： 根据规划执行具体操作，可涵盖物理行动或虚拟任务，如调用API获取实时数据。

AI智能体的特点与优势

为什么我们不用一个单独强大的AI，而要用到智能体？

我们告诉 AI 写代码并在第一次尝试时运行它。如果你使用 GPT-3.5 0 prompt，它的正确率是 48%。

GPT-4 做得更好，正确率达到了 67.7%，但如果你围绕 GPT-3.5 使用一个 Agent 工作流程，实际上它的表现甚至比 GPT-4 还要好。如果你将这种类型的工作流程应用于 GPT-4，它也表现得非常好。你会注意到，GPT-3.5 与一个 Agent 工作流程相结合实际上超过了 GPT-4 的表现。

GPT-4工作得很好，但今天的使用场景仍然有限。而围绕Agent 搭建工作流程，可能比一个单独的模型带给我们更多惊喜。

相较于传统AI模型或聊天机器人，AI智能体具备以下显著特点：

执行复杂任务： 能够独立处理多步骤工作，如分析客户邮件、访问数据库、根据政策处理投诉等。
自主性强： 可在无人监督的情况下完成任务，例如销售领域的Agent Force智能体，能够预审业务线索并联系潜在客户。
工具调用： 能灵活使用网络搜索或编程工具解决问题，即使面对意外情况也能及时调整策略。

AI智能体的应用与类型

在设计AI智能体时，可选择多种开发模式，例如吴恩达红杉美国 AI 峰会谈 Agent Workflow 以及 4 种主流设计模式：复盘 Reflection、工具调用 Tool Use、任务规划 Planning 及工作流 Multiagent Collaboration。

1、复盘 Reflection：让 Agent 审视和修正自己生成的输出

我们并不能总是可靠地让AI工作，比起我们自己一行行的对比查询验证，你只需要写一个审查的 Agent ，就会很快获得生产力的提升。

更进一步，你可以有两个 Agent ，其中一个是代码 Agent ，另一个是批评 Agent 。这些可以是相同大模型，但也不同的方式进行提示。我们对一个说，你是专家级的代码撰写者。对另一个说，你是专家级的代码审查者，审查这段代码。

2、工具调用 Tool Use：LLM 生成代码、调用 API 等进行实际操作

在多模态模型出现之前，大模型普遍只能处理文字，并不能直接处理图像，所以唯一的选择是生成一个可以操纵图像的函数调用。很有趣的是，很多在使用方面的工作似乎都起源于视觉领域，因为在 GPT-4 等出现之前， LLM 对图像是盲目的，这就是使用工具，扩展了 LLM 可以做的事情。

3、任务规划 Planning：让 Agent 分解复杂任务并按计划执行

这是一个从 HuggingGPT 论文中改编的例子，你说，请生成一张图片，图片中的女孩在读书，而且与图像example.jpg中的男孩姿势相同，请用语音描述新图像。所以给出这样一个例子，今天有 AI Agent ，你可以决定首先需要做的是确定男孩的姿势。然后，找到正确的模型，可能在 HuggingFace 上提取姿势。接下来需要找到姿势图像模型来合成一张女孩的图片，遵循指令。然后使用图像检测，最后使用文本到语音。

我们通过让AI实施一些行之有效的SOP来完成工作，等待一段时间，或许会有新的东西。

4、工作流 Multiagent Collaboration：多个 Agent 扮演不同角色合作完成任务

ChatDev 是一个多 Agent 系统的示例，你可以提示一个 LLM 有时表现得像软件工程公司的 CEO，有时像设计师，有时像产品经理，有时像测试人员。

通过提示 LLM 告诉它现在你是 CEO，现在你是软件工程师，它们合作，进行扩展的对话，以至于如果你告诉它，请开发一个游戏，开发一个多人游戏，它们实际上会花费几分钟编写代码，测试它，迭代它，并最终生成一个出人意料的复杂程序。

Agent 之间的合作能够带来更加丰富和多样的输入，而且因为它能够模拟出一个更加接近真实工作环境的场景，其中不同角色和专业知识的人员为了共同的目标而努力。这种方式的强大之处在于它能够让 LLM 不仅仅是执行单一任务的工具，而是成为一个能够处理复杂问题和工作流程的协作系统。

这种方法的潜在价值巨大，因为它为自动化和提升工作流程的效率提供了新的可能性。例如，通过模拟一个软件开发团队的不同角色，一个企业可以自动化某些开发任务，从而加快项目的进度并减少错误。同样，这种多 Agent 合作方式也可以应用于其他领域，如内容创作、教育和培训、以及策略规划等，进一步拓宽 LLM 在各个行业的应用范围。

通过 Agent Reflection、规划与多 Agent 合作等设计模式，我们不仅能够提升 LLM 的性能，还能够拓展它们的应用领域，使它们成为更加强大和灵活的工具。随着这些技术的不断发展和完善，我们期待着未来 AI Agent 能够在更多的场景中发挥关键作用，为人们带来更加智能和高效的解决方案。

面临的挑战

尽管AI智能体潜力巨大，但目前仍存在一些难题：可靠性不足、跨平台与多模态能力不足及隐私与安全问题等。

问题1：可靠性不足

目前的AI智能体能够完成一些任务，但是并不可靠，正确率仍然远低于人类。比如说AI智能体可以生成代码，但是他们却并不知道该如何测试他们正在编写的代码，以及产生幻觉或者是分心。

与此同时，许多用户也并没有办法完全信任AI智能体，让AI智能体搜集资料是可行的，但让wan quan1负责撰写稿件是另外一回事。

问题2：跨平台和多模态能力有待完善

我们缺乏一个跨平台的身份认证。李开复在潜望的采访提到，智能助手应该是跨平台的，它可以和任何平台、任何地方的智能助手或智能体连接；

但目前国内大部分应用并没有提供API接口，提供了访问功能也有限，导致AI智能体无法接入，获取各种类型的信息，完成跨平台服务。甚至很多只有APP端没有网页端，这导致大部分生成式AI产品，只能在自己的网站或者是应用上来提供服务。比如说你在ChatGPT的网站上聊天，让它生成旅行的建议，ChatGPT就会给你规划路线，建议游玩的景点，但是不能帮你预定门票和酒店。想要让AI像一个个人助理一样，就需要AI接入票务网站、酒店还有机票官网等等不同的平台。

另外还有一些系统，尽管说提供了接口，但是由于标准不够统一，可能会花费大量的时间和精力去做适配。

AI智能体在跨系统的过程当中，会遇到各种各样的难题，这也是为什么google们的AI智能体在尽可能的图片识别能力，通过屏幕的截图来访问不同的软件和网站。但是当下AI识别图片信息的成本要远远高于文字。以OpenAI为例，处理同样信息量的文字和图片，图片的成本是文字的几十倍甚至是上百倍。如果AI需要实时监控电脑屏幕的变化，那么消耗的成本还会进一步的上升。