当前位置：首页 > article >正文

OpenAI 发布首个 AI 智能体

article 2025/3/7 5:57:49

OpenAI 发布首个 AI 智能体

当地时间 1 月 23 日，OpenAI 发布了首个 AI 智能体 Operator124。以下是关于它的详细介绍2：

功能用途

操作网页：可模拟人类操作网页浏览器，能进行点击、滚动、输入等操作，例如在 OpenTable 上预订餐厅座位、在 Instacart 上购物、在 StubHub 上搜索选购比赛门票、通过 DoorDash 点餐等。
多任务并行：系统支持多任务并行处理，可同时执行多个任务，运行效率高，且能保持登录状态。

技术原理

CUA 模型支持：由 Computer-Using Agent（CUA）模型提供支持，CUA 融合了 GPT-4o 的视觉识别能力和基于强化学习的高级推理功能，通过训练掌握了与图形用户界面（GUI）交互的能力，能像人类一样操作屏幕上的按钮、菜单和文本框，无需依赖特定的操作系统或网络 API。
“观察 - 计划 - 执行” 闭环：采用远程云端浏览器执行任务，通过截图识别界面元素，规划后续动作，形成 “观察 - 计划 - 执行” 的闭环，直至完成任务。

安全措施

接管模式：在浏览器中输入敏感信息时要求用户接管，此时不收集或截图用户输入的信息。
用户确认：完成重大操作前请求用户批准。
任务限制：经过培训可拒绝某些敏感任务，如银行交易或需要高风险决策的任务。
监视模式：在电子邮件或金融服务等敏感网站，对其行为进行密切监督。

性能表现

基础任务出色：在基础网页操作和重复性任务方面表现出色，如搜索筛选、创建购物清单和音乐播放列表等任务成功率较高，在电商网站搜索商品时也能保持较高成功率。
复杂任务待提升：处理复杂的房产搜索等任务时成功率相对较低，在处理不熟悉的 UI 界面和文本编辑时表现欠佳，常出现试错和低效操作。

开放计划

首批用户：率先向订阅 200 美元 Pro 计划的美国用户开放，随后逐步扩展至 Plus、Team 和 Enterprise 级别用户。
后续规划：计划后续将其整合到 ChatGPT，API 预计在数周内推出。

http://www.kler.cn/a/520983.html

相关文章：

[ Spring ] Spring Cloud Alibaba Aliyun OSS 2025

电梯系统的UML文档11

字节跳动发布UI-TARS，超越GPT-4o和Claude，能接管电脑完成复杂任务

蓝桥杯备考：哈希表和unorderd_set

算法每日双题精讲 —— 二分查找（寻找旋转排序数组中的最小值，点名）

＜ OS 有关＞阿里云：轻量应用服务器的使用：轻量化阿里云 vpm 主机

从单体应用到微服务的迁移过程

基于LangGraph、Groq和Tavily打造可以调用外部搜索引擎工具的对话机器人（核心代码万字详解）

【Numpy核心编程攻略：Python数据处理、分析详解与科学计算】1.7 数组工厂：8种初始化方法性能横评

5.1.2软件生存周期模型（二）

Linux初识：【冯诺依曼体系结构】【操作系统概念】【进程部分概念（进程状态）（进程优先级）（进程调度队列）】

Linux的基本指令（上）

第28讲程序是如何控制寄存器的

从零到全栈开发

在深度Linux (Deepin) 20中安装Nvidia驱动

MiniMax-01中Lightning Attention的由来（线性注意力进化史）

API接口设计模板

Zotero中使用Deepseek翻译

基于Python的哔哩哔哩综合热门数据分析系统的设计与实现

小程序开发实战：记录一天的 Bug 修复历程