OpenAI的第二个AI Agent:Deep Research完全解读!
⚡一分钟速读
🚀 什么是 Deep Research?
🔹 OpenAI 最新 AI Agent,基于 o3 模型,专为 复杂研究任务 设计
🔹 自动搜索、解读、整合 海量在线信息,生成专业级研究报告
🔹 具备推理能力,可自主调整研究方向
🔍 为什么需要 Deep Research?
✅ 专业人士(金融、科技、工程)——精准、可靠的研究支持
✅ 有深度调研需求的消费者(买车、家电等)——个性化购买决策
✅ 小众、非直观信息搜索——以往需手动查找的内容,现在自动化获取
⚖️ Deep Research vs GPT-4o
功能 | GPT-4o | Deep Research |
---|---|---|
任务类型 | 通用对话 | 深度研究 |
信息获取 | 主要为训练数据 | 实时联网搜索 |
报告级别 | 快速总结 | 专业级研究报告 |
引用来源 | 仅搜索任务有 | 清晰引用、可验证 |
🛠️ 如何使用?
-
💡 在 ChatGPT 中选择 "Deep Research" 模式,输入研究问题
-
📂 可上传文件/表格,提供更多上下文
-
⌛ 研究时间 5-30 分钟,任务完成后收到通知
📊 技术原理 | Deep Research 的强大之处
-
🔥 强化学习训练,具备多步骤推理、回溯调整能力
-
🎯 人类终极考试(Humanity’s Last Exam):准确率 26.6%,远超 GPT-4o 等模型
-
📈 GAIA 评估:刷新全球最佳 AI 研究水平
⚠️ 现存局限
🔸 仍可能出现幻觉,信息偶尔不准确
🔸 可能难以区分权威信息与谣言 🔸 初期版本可能存在格式和引用问题
💰 谁能用?
📌 Pro 用户 现已开放(每月 100 次查询)
📌 Plus & Team 用户 预计 1 个月后开放
📌 Enterprise 用户 未来扩展
🔮 未来展望
📱 未来 1 个月内,支持 移动 & 桌面端
📚 连接订阅数据库 & 企业内部资源,提高研究能力
🤖 结合 Operator,实现 AI 研究 + 现实任务执行
北京时间今天早上,OpenAI正式发布了旗下第二个AI Agent(智能体),叫做Deep Research(深度研究)。
为什么是第二个呢?
因为第一个是Operator,无需API,直接利用CUA(Computer-Using Agent)技术实现AI操作浏览器网页。
其实在Operator之前,还有OpenAI的第0.5个AI Agent,叫做:ChatGPT Tasks,一个大号的“定时任务助手”,算是OpenAI在AI Agent领域的初探。
Deep Research 是什么
一句话总结,Deep Research(深度研究) 是一个AI Agent,可以执行复杂的多步骤研究任务,旨在大幅提高研究效率。
Deep Research功能基于OpenAI还未发布的o3
模型的特定版本,专为网页浏览与数据分析优化,能够搜索、解读并整合海量在线信息。不出意外,Deep Research具备推理能力,并且可以自主调整研究方向,最终生成专业级研究报告。
o3
是OpenAI最新最强大的推理模型。几天前刚发布的o3-mini-high
就比DeepSeek-R1
强一些,满血版o3
无疑会更强。这也是为什么OpenAI敢于推出Deep Research功能,因为该功能对底座模型的要求非常高。
为什么需要 Deep Research
Deep Research有两类用户非常适用:一是从事知识密集型工作的专业人士,比如金融、科学和工程领域的从业者,这类用户往往需要精准、可靠的研究成果;二是有深度调研需求的消费者,Deep Research能帮忙做出个性化的购买决策,比如买车、家电、家具等高价值商品时。
为了方便参考验证,Deep Research的每项研究结果都附带完整的文档、清晰的引用来源和逻辑摘要。据OpenAI宣传,Deep Research尤其擅长寻找小众、非直观的信息,之前需要浏览大量网站才能获取的信息,现在只需要一个提示词,Deep Research就能自动完成复杂、耗时的联网研究任务。
基于o3
的Deep Research能够自主发现、推理和整合在线信息。为了实现这些功能,Deep Research采用了与OpenAI o1
模型相同的强化学习技术,基于需要使用浏览器和Python工具的真实任务训练。
现实世界的深度研究往往需要广泛的上下文信息和多来源数据整合,Deep Research本质上降低了信息收集与推理整合之间的壁垒。
如何用 Deep Research
在ChatGPT输入框左下角,选择 Deep Research(深度研究) 模式,然后输入查询内容,即可开启深度研究任务。此外,Deep Research支持上传文件或表格,以提供更多上下文信息。研究任务开始后,侧边栏会显示研究步骤摘要及引用来源。
Deep Research的执行时间通常在5到30分钟,具体取决于研究的复杂程度。任务执行过程中,用户可以暂时离开,处理其他任务,研究完成后会收到通知。最终的研究结果会以报告形式呈现在对话中。此外,未来几周内,报告中还将新增嵌入式图片、数据可视化及其他分析内容。
GPT-4o VS Deep Research
GPT-4o
作为一个不会思考的通用模型,支持多模态、响应速度快,更适合一般任务和实时、多模态对话。你会发现,GPT-4o
因为太通用了,回答大多数问题都比较浅,不够深入且缺乏细节。
而Deep Research能够全面检索信息并提供清晰的引用来源,更擅长处理需要深入探索和精准细节的复杂问题。Deep Research生成的研究报告不是一个快速总结,而是一份经过验证、可直接使用的正式报告。
比如分别向GPT-4o
和Deep Research提问“iOS和Android在全球前10个发达国家和前10个发展中国家的市场占有率”。
Deep Research给出的回答很惊艳。
Deep Research 技术原理
Deep Research(深度研究)通过端到端强化学习(RL) 进行训练,训练数据涵盖复杂的网页浏览和推理任务,涉及多个领域。通过训练,Deep Research能够学会如何规划并执行多步骤任务,以找到所需数据,同时具备回溯能力,能根据实时信息调整策略。
此外,Deep Research模型支持分析上传的文件,利用Python工具绘制和优化图表,并在回答中嵌入网站图像和图表,还可以引用具体的句子或段落。基于此,Deep Research在多个专注于现实问题的基准测试上达到了新的高度。
人类终极考试(Humanity’s Last Exam)
在最新的 人类终极考试(Humanity’s Last Exam) 中,Deep Research模型准确率为26.6%,刷新了纪录。该测试包含超3,000道多选和简答题,涉及100多个学科,从语言到科学、文学到生物学等。与o1
相比,Deep Research模型在化学、人文、社科和数学等领域提升较大。
模型 | 准确率 (%) |
---|---|
GPT-4o | 3.3 |
Grok-2 | 3.8 |
Claude 3.5 Sonnet | 4.3 |
Gemini Thinking | 6.2 |
OpenAI o1 | 9.1 |
DeepSeek-R1 | 9.4 |
OpenAI o3-mini (medium) | 10.5 |
OpenAI o3-mini (high) | 13.0 |
OpenAI Deep Research | 26.6 |
GAIA 评估
在GAIA(一个针对现实世界问题的公开基准测试)中,Deep Research同样刷新了最先进水平(SOTA),位列外部排行榜第一。GAIA评估涵盖三个难度级别,考察AI在推理、多模态处理、网页浏览和工具使用等方面的能力。
GAIA 评估 | Level 1 | Level 2 | Level 3 | 平均分 |
---|---|---|---|---|
之前的 SOTA | 67.92 | 67.44 | 42.31 | 63.64 |
深度研究 (pass@1) | 74.29 | 69.06 | 47.6 | 67.36 |
深度研究 (cons@64) | 78.66 | 73.21 | 58.03 | 72.57 |
GAIA任务的成功需要AI具备深度推理、多模态处理和高级工具使用能力。Deep Research的成绩表明,其在面对复杂问题时具备更高的自主研究和分析能力。
专家级任务自动化
Deep Research在一系列专家级任务(如化学、语言学、医疗研究)中,已经能够自动完成过去需要人工进行数小时的、复杂的调查工作。
数据分析表明,模型思考时间越长,准确率越高,因此在执行复杂任务时,给予AI充足的推理时间,是提高准确率的关键。
任务的预估经济价值与通过率的相关性高于与人类完成所需时间的相关性——也即,模型认为困难的任务与人类认为耗时的任务并不完全相同。
Deep Research的局限性
作为一个处于早期阶段的项目,Deep Research仍存在一定的局限性。
-
幻觉:尽管比现有ChatGPT模型的错误率更低,但Deep Research仍可能生成虚假信息或进行错误推理。
-
信息可信度:有时难以区分权威信息与谣言,可能导致错误的结论。
-
不确定性表达:在置信度校准方面存在不足,可能无法准确传达回答中的不确定性。
-
格式与引用问题:在初期版本中,报告格式和引用可能会出现错误。
-
任务执行速度:部分任务可能需要更长时间。
谁能用Deep Research
Deep Research的算力需求极高,研究任务耗时越长,所需计算资源越多。首发版本目前仅对Pro用户开放,每月可使用最多100次查询。接下来,预计将于一个月后对Plus和Team用户开放访问权限,随后扩展到Enterprise 用户。
此外,OpenAI计划推出更具性价比的Deep Research,该版本由更小的模型驱动,同时仍保持高质量研究能力。所有付费用户将很快获得更高的Deep Research配额。
下一步计划
Deep Research今日起已在ChatGPT web网页端上线,OpenAI计划在一个月内增加对移动app端和桌面客户端的支持。
目前,该功能可以联网搜索和解析上传的文件。未来,计划为该功能连接更多专业数据源,包括订阅制数据库或企业内部资源,从而增强研究的准确性和个性化。
从长远来看,OpenAI计划整合ChatGPT中AI Agent的能力,实现异步、真实的研究与任务执行。Deep Research将负责自动信息检索,Operator负责执行现实任务。二者结合,将使ChatGPT具备更复杂的自主任务执行能力,帮助用户完成更复杂的研究和操作。
我是木易,一个专注AI领域的技术产品经理,国内Top2本科+美国Top10 CS硕士。
相信AI是普通人的“外挂”,致力于分享AI全维度知识。这里有最新的AI科普、工具测评、效率秘籍与行业洞察。
欢迎关注“AI信息Gap”,用AI为你的未来加速。