当前位置: 首页 > article >正文

Agentless:OpenAI 采用的非代理框架

不需要代理库来解决复杂的业务问题。Agentless 是OpenAI采用的非代理框架,用于在 o3 的 SWE Bench 上实现最高精度。SWE-bench 是
github的真实软件工程问题基准。Agentless 遵循简单的三阶段流程:本地化、修复和补丁验证:

1 ⃣生成存储库的树状结构以及问题/功能描述。
2 ⃣使用提示和基于嵌入的检索来识别最可疑的文件。
3 ⃣仅向 LLM 提供每个可疑文件的类和函数签名(“骨架”)。
4 ⃣在已识别的类/功能中,精确定位需要修改的确切行。
5 ⃣ LLM 为每个可能解决问题的位置生成多个搜索/替换差异(补丁)。
6 ⃣提示 LLM 创建测试来确认该错误是否仍然出现。
7 ⃣运行回归测试以避免破坏现有行为。
8 ⃣选择最佳补丁(通过多数投票和测试一致性)并更新文件

见解:
🥇 Claude 3.5 Sonnet 在 SWE-bench lite 上的求解率分别达到 40.7% 和 50.8%,并经过验证
🧠被 OpenAI 采用用于 GPT-4o、o1 和o3模型性能。
💰平均每期成本为 0.70 美元,明显低于基于代理的方法
🔍将嵌入和快速检索结合起来可提高准确性
🧪生成复制测试显著促进了补丁选择
📝使用“搜索/替换”差异代替完全的代码重写可以减少错误
💡简单的本地化+修复流程可以击败基于代理的框架

无代理是一个很好的例子,说明如何专注于解决问题可以避免传统基于代理的系统的复杂性和缺陷。

参考资料

https://x.com/_philschmid/status/1878395725404344390


http://www.kler.cn/a/501103.html

相关文章:

  • plane开源的自托管项目
  • http常用状态码(204,304, 404, 504,502)含义
  • Linux权限
  • Postman接口测试基本操作
  • Linux常见命令总结
  • 循环神经网络(RNN):从基础到未来的应用
  • 美创科技获数字安全产业贡献奖
  • CSS语言的语法糖
  • 【软考】软件设计师
  • RV1126+FFMPEG推流项目(1)总体框架讲解
  • 基于mybatis-plus历史背景下的多租户平台改造
  • EFCore HasDefaultValueSql (续2 HasComputedColumnSql)
  • Spring中三级缓存详细讲解
  • Pytest-Bdd-Playwright 系列教程(完结篇):本框架的功能参数说明
  • JavaScript 数组及其常用方法
  • 《解锁鸿蒙Next系统人工智能语音助手开发的关键步骤》
  • 初学spring 框架(了解spring框架的技术背景,核心体现,入门案例)
  • Oracle 表分区简介
  • ASP.NET CORE 实现微服务 - 分布式事务 - 2PC、3PC、TCC
  • eno4j 基础 CQL 学习
  • C++类的引入
  • C#对象池
  • 网络安全 | 什么是Bot防护?