当前位置: 首页 > article >正文

OpenAI 发布首个 AI 智能体

OpenAI 发布首个 AI 智能体

当地时间 1 月 23 日,OpenAI 发布了首个 AI 智能体 Operator124。以下是关于它的详细介绍2:

功能用途

  • 操作网页:可模拟人类操作网页浏览器,能进行点击、滚动、输入等操作,例如在 OpenTable 上预订餐厅座位、在 Instacart 上购物、在 StubHub 上搜索选购比赛门票、通过 DoorDash 点餐等。
  • 多任务并行:系统支持多任务并行处理,可同时执行多个任务,运行效率高,且能保持登录状态。

技术原理

  • CUA 模型支持:由 Computer-Using Agent(CUA)模型提供支持,CUA 融合了 GPT-4o 的视觉识别能力和基于强化学习的高级推理功能,通过训练掌握了与图形用户界面(GUI)交互的能力,能像人类一样操作屏幕上的按钮、菜单和文本框,无需依赖特定的操作系统或网络 API。
  • “观察 - 计划 - 执行” 闭环:采用远程云端浏览器执行任务,通过截图识别界面元素,规划后续动作,形成 “观察 - 计划 - 执行” 的闭环,直至完成任务。

安全措施

  • 接管模式:在浏览器中输入敏感信息时要求用户接管,此时不收集或截图用户输入的信息。
  • 用户确认:完成重大操作前请求用户批准。
  • 任务限制:经过培训可拒绝某些敏感任务,如银行交易或需要高风险决策的任务。
  • 监视模式:在电子邮件或金融服务等敏感网站,对其行为进行密切监督。

性能表现

  • 基础任务出色:在基础网页操作和重复性任务方面表现出色,如搜索筛选、创建购物清单和音乐播放列表等任务成功率较高,在电商网站搜索商品时也能保持较高成功率。
  • 复杂任务待提升:处理复杂的房产搜索等任务时成功率相对较低,在处理不熟悉的 UI 界面和文本编辑时表现欠佳,常出现试错和低效操作。

开放计划

  • 首批用户:率先向订阅 200 美元 Pro 计划的美国用户开放,随后逐步扩展至 Plus、Team 和 Enterprise 级别用户。
  • 后续规划:计划后续将其整合到 ChatGPT,API 预计在数周内推出。

http://www.kler.cn/a/520983.html

相关文章:

  • [权限提升] 操作系统权限介绍
  • 如何跨互联网adb连接到远程手机-蓝牙电话集中维护
  • 【Super Tilemap Editor使用详解】(十七):常见问题解答(FAQ)
  • 接口 V2 完善:分布式环境下的 WebSocket 实现与 Token 校验
  • Kafka 入门与应用实战:吞吐量优化与与 RabbitMQ、RocketMQ 的对比
  • 每日一题 429. N 叉树的层序遍历
  • [ Spring ] Spring Cloud Alibaba Aliyun OSS 2025
  • 电梯系统的UML文档11
  • 字节跳动发布UI-TARS,超越GPT-4o和Claude,能接管电脑完成复杂任务
  • 蓝桥杯备考:哈希表和unorderd_set
  • 算法每日双题精讲 —— 二分查找(寻找旋转排序数组中的最小值,点名)
  • < OS 有关 > 阿里云:轻量应用服务器 的使用 :轻量化 阿里云 vpm 主机
  • 从单体应用到微服务的迁移过程
  • 基于LangGraph、Groq和Tavily打造可以调用外部搜索引擎工具的对话机器人(核心代码 万字详解)
  • 【Numpy核心编程攻略:Python数据处理、分析详解与科学计算】1.7 数组工厂:8种初始化方法性能横评
  • 5.1.2软件生存周期模型(二)
  • Linux初识:【冯诺依曼体系结构】【操作系统概念】【进程部分概念(进程状态)(进程优先级)(进程调度队列)】
  • Linux的基本指令(上)
  • 第28讲 程序是如何控制寄存器的
  • 从零到全栈开发
  • 在深度Linux (Deepin) 20中安装Nvidia驱动
  • MiniMax-01中Lightning Attention的由来(线性注意力进化史)
  • API接口设计模板
  • Zotero中使用Deepseek翻译
  • 基于Python的哔哩哔哩综合热门数据分析系统的设计与实现
  • 小程序开发实战:记录一天的 Bug 修复历程