当前位置: 首页 > article >正文

微软发布Windows Agent Arena 为生成式AI代理提供基准测试

使用生成式人工智能和大型语言模型来自动化和简化使用 PC 的人员的任务的情况持续增长。不过,人们也需要了解人工智能在完成任务方面的工作表现。本周微软研究院宣布,它已开发出一种专门用于在 Windows PC 上测试人工智能代理的基准。

在这里插入图片描述
微软在 GitHub 页面上公布的这一基准名为 Windows Agent Arena。该框架旨在测试人工智能代理与人类通常使用的 Windows 应用程序的交互能力和速度。在 Windows Agent Arena 中与 AI 代理进行测试的应用程序列表包括Microsoft Edge 和Google Chrome 浏览器等网页浏览器、文件资源管理器设置等操作系统功能、Visual Studio Code 等编码应用程序、记事本、时钟和画图等简单的预装 Windows 应用程序,甚至还包括使用 VLC 播放器观看视频。

微软表示:

我们对 OSWorld 框架进行了调整,创建了 150 多个不同的 Windows 任务,这些任务跨越了需要代理在规划、屏幕理解和工具使用方面具备能力的代表性领域。我们的基准还具有可扩展性,可在 Azure 中进行无缝并行化,在短短 20 分钟内即可完成完整的基准评估。

在这里插入图片描述
微软研究院也创建了自己的多模式代理,名为 Navi,并在 Windows Agent Arena 基准测试中进行了测试。测试要求它在某些文本提示下执行任务,例如:"你能把我正在浏览的网站转换成 PDF 文件并放到我的主屏幕上吗?"测试发现,Navi 的平均成功率为 19.5%,与人类 74.5% 的成功率相比仍然很低。

有了 Windows Agent Arena 这样的基准,对创建人工智能代理来说将是一个巨大的发展,这样它们就能得到改进,表现得更接近人类的水平。

微软团队还与卡内基梅隆大学和哥伦比亚大学的研究人员合作完成了该项目。您可以在 GitHub 上查看论文全文以及该基准的代码。

https://microsoft.github.io/WindowsAgentArena/static/files/windows_agent_arena.pdf

https://github.com/microsoft/WindowsAgentArena

感谢大家花时间阅读我的文章,你们的支持是我不断前进的动力。期望未来能为大家带来更多有价值的内容,请多多关注我的动态!


http://www.kler.cn/news/313490.html

相关文章:

  • 动手学习RAG: 大模型向量模型微调 intfloat/e5-mistral-7b-instruct
  • [网络层]-IP协议相关特性
  • 记忆化搜索专题——算法简介力扣实战应用
  • JavaScript 与 Java 的继承有何区别?-----原型继承,单继承有何联系?
  • 微信小程序/uniapp 程序分包处理,小程序性能优化
  • 错题集锦之C语言
  • NumPy库学习之argmax函数
  • C++【类和对象】(一)
  • 数据结构--图
  • k8s的基础
  • YOLOv8改进,YOLOv8替换主干网络为VanillaNet( CVPR 2023 华为提出的全新轻量化架构),大幅度涨点
  • Remix在SPA模式下,出现ErrorBoundary错误页加载Ant Design组件报错,不能加载样式的问题
  • 使用注意力机制可以让你的模型更加灵活,但是需要额外的计算资源。rnn lstm bilstm attension
  • 【论文阅读】PERCEIVER-ACTOR: A Multi-Task Transformer for Robotic Manipulation
  • 开关磁阻电机(SRM)系统的matlab性能仿真与分析
  • python知识点100篇系列(17)-替换requests的python库httpx
  • Python学习
  • yolo自动化项目实例解析(四)ui页面整理1 (1.85)
  • git merge如何忽略部分路径
  • sqli-lab靶场学习(四)——Less11-14(post方法)
  • 微信小程序中的实时通讯:TCP/UDP 协议实现详解
  • Closure 是个数据结构
  • 如何在 Ubuntu 上安装 OpenSSH Server ?
  • DataFrame生成excel后为什么多了一行数字
  • 计算机的编程
  • 华为OD机试 - 信号强度(Python/JS/C/C++ 2024 E卷 100分)
  • 【设计模式】创建型模式(四):建造者模式
  • 前端设计之 主页面、书架页面、数据分析页面
  • 搜索引擎onesearch3实现解释和升级到Elasticsearch v8系列(二)-索引
  • 【RabbitMQ】死信队列、延迟队列