当前位置: 首页 > article >正文

让 AI 来使用计算机!Agent S:基于 GUI 的人机交互自动化解决方案

❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

微信公众号|搜一搜:蚝油菜花
在这里插入图片描述

🚀 快速阅读

  1. Agent S 是一个基于图形用户界面(GUI)实现人机交互自动化的开源框架。
  2. 它通过经验增强的分层规划和多模态大型语言模型(MLLMs)提升任务自动化能力。
  3. 支持跨操作系统通用性,适用于办公自动化、网页交互、个人助理等多种应用场景。

正文(附运行示例)

Agent S 是什么

Agent S 是一个创新的代理框架,旨在通过图形用户界面(GUI)实现人机交互的自动化。简单来说,它就像一个虚拟助手,能够模拟人类的操作方式,使用鼠标和键盘直接与计算机互动,处理复杂的多步骤任务。Agent S 引入了一种叫做“经验增强的分层规划”的方法,结合在线网络知识和内部记忆,将复杂任务分解成更易管理的子任务,从而显著提升了基于多模态大型语言模型(MLLMs)的 GUI 代理的推理和控制能力。

Agent S 的主要功能

  • 自主交互与任务自动化:Agent S 可以通过 GUI 与计算机进行自主交互,自动化执行复杂的多步骤任务。
  • 经验增强的分层规划:利用在线网络知识和内部经验,将复杂任务分解成可执行的子任务。
  • 代理-计算机接口(ACI):提升基于 MLLMs 的 GUI 代理的推理和控制能力,确保精确交互。
  • 持续学习和记忆更新:通过自我评估和经验总结,不断更新叙事记忆和情景记忆。
  • 跨操作系统的通用性:在不同操作系统上都能良好运行,适应多种环境。

Agent S 的技术原理

  • 经验增强的分层规划:结合在线网络搜索和内部经验检索,使用叙述记忆和情景记忆来规划和执行任务。
  • 代理-计算机接口(ACI):作为一个抽象层,定义了与环境交互的范式,通过视觉输入和图像增强的可访问性树精确定位元素。
  • 叙事记忆与情景记忆:叙事记忆存储高层次任务经验,情景记忆则包含具体子任务执行的细节。
  • 自我评估与记忆更新:基于自我评估模块总结经验,并以文本奖励的形式更新内部记忆。
  • 多模态大型语言模型(MLLMs):处理和生成语言,理解环境变化,执行基于语言的原始动作。

如何运行 Agent S

安装步骤

  1. 克隆仓库:
    git clone https://github.com/simular-ai/Agent-S.git
    
  2. 创建虚拟环境并激活:
    conda create -n agent_s python=3.9
    conda activate agent_s
    
  3. 安装依赖:
    pip install -e .
    

设置 Perplexica

  1. 确保 Docker 已安装并运行。
  2. 克隆 Perplexica 仓库:
    git clone https://github.com/ItzCrazyKns/Perplexica.git
    
  3. 修改配置文件:
    • config.toml中填写必要的 API 密钥和 URL。
  4. 启动 Docker 容器:
    docker compose up -d
    

设置 Paddle-OCR 服务器

  1. 运行 OCR 服务器:
    cd agent_s
    python ocr_server.py
    
  2. 设置环境变量:
    export OCR_SERVER_ADDRESS=http://localhost:8000/ocr/
    

本地运行

在 MacOS 或 Ubuntu 上通过 OpenACI 运行:

python examples/cli_app.py --model <MODEL>

这将显示用户查询提示,可以输入查询与 Agent S 交互。

资源

  • 项目官网:simular.ai/agent-s
  • GitHub 仓库:github.com/simular-ai/Agent-S
  • arXiv 技术论文:arxiv.org/abs/2410.08164
  • Perplexica 仓库:github.com/ItzCrazyKns/Perplexica

❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

微信公众号|搜一搜:蚝油菜花


http://www.kler.cn/news/358154.html

相关文章:

  • Java基础12-特殊文件和日志技术
  • git工具窗口使用命令
  • 2024年深圳福田区第十二届职工技能大比武职业技能竞赛圆满收官
  • LangGraph 源码分析 | BaseTool 模板类
  • Vue 文件类型声明
  • 差分题目总和
  • wordpress 子比主题美化 四宫格 多宫格 布局插件
  • 数据结构:二叉树、堆
  • 【Fargo】9:模拟图片采集的内存泄漏std::bad_alloc
  • Spring Boot RESTful API 开发、测试与调试
  • 127-4通道 12bit 125Msps 直流耦合 AD FMC 子卡
  • Kafka-设计思想-1
  • 基于百度智能体开发爱情三十六计
  • Linux——软件安装操作命令
  • 【JavaEE初阶】深入理解网络编程—使用UDP协议API实现回显服务器
  • 数据库原理图
  • STM32F1+HAL库+FreeTOTS学习18——任务通知
  • ubuntu 安装keepalived+haproxy
  • Linux小知识2 系统的启动
  • docker搭建etcd集群环境方式