当前位置：首页 > article >正文

OpenAI的第二个AI Agent：Deep Research完全解读！

article 2025/2/6 0:56:03

⚡一分钟速读

🚀 什么是 Deep Research？

🔹 OpenAI 最新 AI Agent，基于 o3 模型，专为 复杂研究任务 设计
🔹 自动搜索、解读、整合 海量在线信息，生成专业级研究报告
🔹 具备推理能力，可自主调整研究方向

🔍 为什么需要 Deep Research？

✅ 专业人士（金融、科技、工程）——精准、可靠的研究支持
✅ 有深度调研需求的消费者（买车、家电等）——个性化购买决策
✅ 小众、非直观信息搜索——以往需手动查找的内容，现在自动化获取

⚖️ Deep Research vs GPT-4o

功能	GPT-4o	Deep Research
任务类型	通用对话	深度研究
信息获取	主要为训练数据	实时联网搜索
报告级别	快速总结	专业级研究报告
引用来源	仅搜索任务有	清晰引用、可验证

🛠️ 如何使用？

💡 在 ChatGPT 中选择 "Deep Research" 模式，输入研究问题
📂 可上传文件/表格，提供更多上下文
⌛ 研究时间 5-30 分钟，任务完成后收到通知

📊 技术原理 | Deep Research 的强大之处

🔥 强化学习训练，具备多步骤推理、回溯调整能力
🎯 人类终极考试（Humanity’s Last Exam）：准确率 26.6%，远超 GPT-4o 等模型
📈 GAIA 评估：刷新全球最佳 AI 研究水平

⚠️ 现存局限

🔸 仍可能出现幻觉，信息偶尔不准确
🔸 可能难以区分权威信息与谣言 🔸 初期版本可能存在格式和引用问题

💰 谁能用？

📌 Pro 用户 现已开放（每月 100 次查询）
📌 Plus & Team 用户 预计 1 个月后开放
📌 Enterprise 用户 未来扩展

🔮 未来展望

📱 未来 1 个月内，支持 移动 & 桌面端
📚 连接订阅数据库 & 企业内部资源，提高研究能力
🤖 结合 Operator，实现 AI 研究 + 现实任务执行

北京时间今天早上，OpenAI正式发布了旗下第二个AI Agent（智能体），叫做Deep Research（深度研究）。

为什么是第二个呢？

因为第一个是Operator，无需API，直接利用CUA（Computer-Using Agent）技术实现AI操作浏览器网页。

其实在Operator之前，还有OpenAI的第0.5个AI Agent，叫做：ChatGPT Tasks，一个大号的“定时任务助手”，算是OpenAI在AI Agent领域的初探。

Deep Research 是什么

一句话总结，Deep Research（深度研究） 是一个AI Agent，可以执行复杂的多步骤研究任务，旨在大幅提高研究效率。

Deep Research功能基于OpenAI还未发布的o3模型的特定版本，专为网页浏览与数据分析优化，能够搜索、解读并整合海量在线信息。不出意外，Deep Research具备推理能力，并且可以自主调整研究方向，最终生成专业级研究报告。

o3是OpenAI最新最强大的推理模型。几天前刚发布的o3-mini-high就比DeepSeek-R1强一些，满血版o3无疑会更强。这也是为什么OpenAI敢于推出Deep Research功能，因为该功能对底座模型的要求非常高。

为什么需要 Deep Research

Deep Research有两类用户非常适用：一是从事知识密集型工作的专业人士，比如金融、科学和工程领域的从业者，这类用户往往需要精准、可靠的研究成果；二是有深度调研需求的消费者，Deep Research能帮忙做出个性化的购买决策，比如买车、家电、家具等高价值商品时。

为了方便参考验证，Deep Research的每项研究结果都附带完整的文档、清晰的引用来源和逻辑摘要。据OpenAI宣传，Deep Research尤其擅长寻找小众、非直观的信息，之前需要浏览大量网站才能获取的信息，现在只需要一个提示词，Deep Research就能自动完成复杂、耗时的联网研究任务。

基于o3的Deep Research能够自主发现、推理和整合在线信息。为了实现这些功能，Deep Research采用了与OpenAI o1模型相同的强化学习技术，基于需要使用浏览器和Python工具的真实任务训练。

现实世界的深度研究往往需要广泛的上下文信息和多来源数据整合，Deep Research本质上降低了信息收集与推理整合之间的壁垒。

如何用 Deep Research

在ChatGPT输入框左下角，选择 Deep Research（深度研究） 模式，然后输入查询内容，即可开启深度研究任务。此外，Deep Research支持上传文件或表格，以提供更多上下文信息。研究任务开始后，侧边栏会显示研究步骤摘要及引用来源。

Deep Research的执行时间通常在5到30分钟，具体取决于研究的复杂程度。任务执行过程中，用户可以暂时离开，处理其他任务，研究完成后会收到通知。最终的研究结果会以报告形式呈现在对话中。此外，未来几周内，报告中还将新增嵌入式图片、数据可视化及其他分析内容。

GPT-4o VS Deep Research

GPT-4o作为一个不会思考的通用模型，支持多模态、响应速度快，更适合一般任务和实时、多模态对话。你会发现，GPT-4o因为太通用了，回答大多数问题都比较浅，不够深入且缺乏细节。

而Deep Research能够全面检索信息并提供清晰的引用来源，更擅长处理需要深入探索和精准细节的复杂问题。Deep Research生成的研究报告不是一个快速总结，而是一份经过验证、可直接使用的正式报告。

比如分别向GPT-4o和Deep Research提问“iOS和Android在全球前10个发达国家和前10个发展中国家的市场占有率”。

Deep Research给出的回答很惊艳。

Deep Research 技术原理

Deep Research（深度研究）通过端到端强化学习（RL） 进行训练，训练数据涵盖复杂的网页浏览和推理任务，涉及多个领域。通过训练，Deep Research能够学会如何规划并执行多步骤任务，以找到所需数据，同时具备回溯能力，能根据实时信息调整策略。

此外，Deep Research模型支持分析上传的文件，利用Python工具绘制和优化图表，并在回答中嵌入网站图像和图表，还可以引用具体的句子或段落。基于此，Deep Research在多个专注于现实问题的基准测试上达到了新的高度。

人类终极考试（Humanity’s Last Exam）

在最新的 人类终极考试（Humanity’s Last Exam） 中，Deep Research模型准确率为26.6%，刷新了纪录。该测试包含超3,000道多选和简答题，涉及100多个学科，从语言到科学、文学到生物学等。与o1相比，Deep Research模型在化学、人文、社科和数学等领域提升较大。

模型	准确率 (%)
GPT-4o	3.3
Grok-2	3.8
Claude 3.5 Sonnet	4.3
Gemini Thinking	6.2
OpenAI o1	9.1
DeepSeek-R1	9.4
OpenAI o3-mini (medium)	10.5
OpenAI o3-mini (high)	13.0
OpenAI Deep Research	26.6