当前位置: 首页 > article >正文

Magma登场!多模态AI模型,打通数字与物理世界

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

想象一下,一个AI系统不仅能精准操控软件界面,还能指导机器人抓取物体,执行复杂的现实任务。这种场景曾经只存在于科幻小说里,而如今,微软研究团队带来了Magma——一款跨越数字与物理环境的多模态AI基础模型,让这个愿景距离现实更近了一步。

Magma的核心能力:让AI真正“动起来”

Magma采用**基础模型(Foundation Model)**架构,预训练于海量多样化数据,使其在不同任务和环境下具备更强的泛化能力。它不仅能解析视觉和文本信息,还能基于这些信息生成可执行的操作建议,无论是点击软件按钮,还是操控机器人抓取工具

与以往的任务专用AI不同,Magma具备更广泛的适应能力。例如,它可以帮助智能家居机器人学习整理从未见过的物品,也能指导虚拟助手生成详细的UI导航指引。相比单一任务AI,Magma的泛化能力大幅提升,能够跨越不同领域执行任务,真正成为通用型AI助手

如何训练AI跨越数字与现实世界?SoM & ToM方法

微软研究团队在训练Magma时,提出了两大创新策略——Set-of-Mark (SoM) 和 Trace-of-Mark (ToM),帮助AI更精准地理解任务要点,并掌握动态交互能力。

Set-of-Mark (SoM):关键元素标注
SoM是一种高层次提示方法,通过标注任务中至关重要的对象或界面元素,帮助AI聚焦关键信息。例如,在网页导航任务中,SoM会标记所有可点击的按钮,而在物理任务中,则会标记需要移动的物体(如桌上的盘子、杯子等)。

Trace-of-Mark (ToM):动态任务轨迹
相比SoM的静态标注,ToM进一步增强了AI的时间维度理解,通过轨迹追踪对象的运动情况。例如,在机器人抓取任务中,ToM可以描绘机械臂如何调整位置、放置物体的动态过程,让Magma更精准地执行动作。

表现如何?Magma挑战各大SOTA模型

在多项任务测试中,Magma展现了惊人的泛化能力和任务适应性:
📌 零样本(Zero-shot)智能评估——无需额外微调,Magma就能在多个领域执行完整任务,在机器人操控和UI导航等任务上击败众多专门模型。


📌 少样本(Few-shot)微调——在机器人(Widow-X)和交互式UI任务(Mind2Web)上,Magma在所有测试任务中成功率远超现有模型,证明了SoM和ToM技术的关键作用。


📌 跨环境迁移能力——即便没有特定任务的数据,Magma依然可以媲美甚至超越最先进的多模态AI,如Video-Llama2和ShareGPT4Video。

Magma:AI智能体的未来基石

Magma不仅是一个单一的模型,而是微软AI智能体(Agentic AI)的核心拼图之一。它可以与微软的AutoGen开源库结合,打造具备自主计划和执行能力的AI助手。未来,Magma还将结合**强化学习、测试时搜索(Test-time Search)**等技术,进一步增强推理和探索能力。

目前,Magma已在Azure AI Foundry LabsHuggingFace上开源,并采用MIT许可,开发者可自由下载并进行探索。微软研究团队邀请所有AI开发者测试和改进这款划时代的多模态AI模型,共同推动AI智能体迈向更高层次的自主智能!


http://www.kler.cn/a/573947.html

相关文章:

  • windows下Jmeter的安装与使用
  • 【SegRNN 源码理解】
  • Jmeter使用介绍
  • java数据结构_泛型补充
  • Redis系列之慢查询分析与调优
  • React基础之渲染操作
  • 2025数据存储技术风向标:解析数据湖与数据仓库的实战效能差距
  • MWC 2025|紫光展锐联手美格智能发布5G通信模组SRM812
  • Vue进阶之Vue3源码解析(一)
  • *搜索算法(2)
  • mongodb安装教程以及mongodb的使用
  • 记录一个Circle CI出现的错误
  • Android MVI架构模式详解
  • SolidWorks 转 PDF3D 技术详解
  • vue左侧边框点击后让字体高亮
  • 多线程-线程本地变量ThreadLocal
  • 探秘基带算法:从原理到5G时代的通信变革【十】基带算法应用与对比
  • 前端基础之全局事件总线
  • vue表单已经赋值了,但是还是返回async-validator “xxx is required“提示,弹出验证红字而且不能输入
  • supervisord管理Gunicorn进程,使用Nginx作为反向代理运行flask web项目