当前位置: 首页 > article >正文

OpenAI Deep Research被huggingface 24小时复现开源了

自OpenAI发布Deep Research(一种使用推理来综合大量在线信息并完成多步骤研究任务的AI Agent)之后开源社区已经迎来一大波复现了,PaperAgent进行了梳理:

1.2k星 https://github.com/jina-ai/node-DeepResearch

825 https://github.com/mshumer/OpenDeepResearcher

658 https://github.com/nickscamara/open-deep-research

529 https://github.com/btahir/open-deep-research

499 https://github.com/dzhng/deep-research

182 https://github.com/HarshJ23/Deeper-Seeker

这里重点介绍下huggingface的24小时复现项目: open-Deep-Research

open-Deep-Research是一个完全开放的智能Agent,能够:自主浏览网页、滚动和搜索页面、下载和操作文件、对数据进行计算……

在GAIA基准测试中,Deep Research在验证集上的准确率为67%。 

使用 CodeAgent

将要解决的第一个对传统 AI Agent系统的改进是使用“Code Agent”。让Agent用代码表达其动作有几个优点,但最值得注意的是,代码是专门为表达复杂的动作序列而设计的。

这凸显了使用代码的几个优点:

  • 代码操作比JSON简洁得多

    • 需要运行 4 个包含 5 个连续操作的并行流?在 JSON 中,您需要生成 20 个 JSON blob,每个都在其单独的步骤中;在 Code 中只需 1 个步骤。

    • 论文显示,平均而言,代码操作所需的步骤比 JSON 少 30%,这相当于生成的token也减少了 30%。由于 LLM 调用通常是Agent系统的度量成本,这意味着Agent系统运行成本降低了约 30%。

  • 代码允许重复使用来自公共库的工具

  • 基准测试中表现更佳,原因有二:

    • 更直观的表达动作的方式

    • LLM在训练中广泛接触代码

制造合适的工具

现在需要为Agent提供正确的工具集。

  • 网络浏览器。虽然需要像Operator这样的功能齐全的网络浏览器交互才能实现全部性能,但目前我们从一个非常简单的基于文本的网络浏览器开始进行第一个概念验证。

  • 一个简单的文本检查器,能够读取一堆文本文件格式。

这些工具取自微软研究院出色的Magentic-One Agent!

以下是可以真正提高这些工具性能的改进的简短路线图

  • 扩展可读取的文件格式的数量

  • 提出更细粒度的文件处理

  • 用基于视觉的浏览器取代网络浏览器

结果

在24 小时以上的复制冲刺中,已经看到 GAIA 上的Agent性能稳步提升!

已经从之前采用开放框架的 SoTA(Magentic-One 的准确率约为 46%)迅速上升到目前验证集上的 54% 的准确率。

性能的提升主要归功于让Agent用代码编写操作!事实上,当切换到用 JSON 而不是代码编写操作的标准Agent时,相同设置的性能在验证集上会立即下降到平均33%。

https://huggingface.co/blog/open-deep-research

http://www.kler.cn/a/541215.html

相关文章:

  • Docker搭建redis集群
  • 什么是矩阵账号?如何做矩阵账号运营?
  • DeepSeek神经网络:技术架构与实现原理探析
  • MyBatis面试题解析
  • 基于SpringBoot的校园社交平台
  • 51单片机俄罗斯方块计分函数
  • leetcode 2104. 子数组范围和
  • C++STL(六)——list模拟
  • IEEE期刊Word导出PDF注意事项
  • 性能优化中的系统架构优化
  • (五)Spring Boot学习——spring security +jwt使用(前后端分离模式)
  • 【文本处理】如何在批量WORD和txt文本提取手机号码,固话号码,提取邮箱,删除中文,删除英文,提取车牌号等等一些文本提取固定格式的操作,基于WPF的解决方案
  • [2025年最新]2024.3版本idea无法安装插件问题解决
  • 思科模拟器配置VRRP-详细
  • 【MySQL — 数据库基础】深入解析MySQL的聚合查询
  • 【进程与线程】如何编写一个守护进程
  • Linux——信号的保存与处理
  • 火爆的DeepSeek大模型怎么和智能家居结合?
  • 在 Windows 系统中如何快速进入安全模式的两种方法
  • Android LifecycleOwner 闪退,java 继承、多态特性!
  • 从零开始:使用Jenkins实现高效自动化部署
  • 【Mybatis】动态 SQL:代码与数据的灵动共舞,奏响数据库查询的华丽乐章
  • 在CT107D单片机综合训练平台上实现外部中断控制LED闪烁
  • BUU34 [BSidesCF 2020]Had a bad day1 【php://filter】
  • 【机器学习】数据预处理之数据归一化
  • Vue 中的自定义指令是什么?如何使用?