当前位置: 首页 > article >正文

英伟达Jim Fan预测:未来2~3年机器人将迎来“GPT-3时刻”

在这个科技不断进步的时代,我们终将迎来“与机器人共存”的未来。你认为,未来会是人机和平共处,还是《终结者》式未来?

随着科技发展,这个未来似乎近在咫尺。昨日外媒 The Decoder 发文报道,在最近的一次红杉资本的采访中,Nvidia 高级研究员 Jim Fan 预测:在未来两到三年内,机器人基础模型将取得重大进展。

我希望我们能在未来两到三年内,看到机器人基础模型的研究突破,出现机器人技术的"GPT-3 时刻”。

Jim Fan:NVIDIA 具身AI代理研究领导者

Jim Fan ,师从“人工智能教母”李飞飞教授,在斯坦福大学视觉实验室取得博士学位。研究领域包括了多模态基础模型、强化学习、计算机视觉、具身人工智能等多项前沿技术领域。

2016年,Jim Fan 曾作为 OpenAI 的第一个实习生,与 Ilya Sutskever 和 Andrej Karpathy 合作共事;

此外,Jim 还曾在百度 AI Labs、以及 Yoshua Bengio 领导的 MILA 研究院实习。

毕业后,Jim 加入 NVIDIA,继续投身人工智能研究。在2023年,Jim 带头开发了 Voyager ,第一个基于大语言模型的能熟练游玩 Minecraft 的 AI 代理;

以及“2023英伟达十大项目之一”的 Eureka ,利用大语言模型赋能机器手,完成三十余项复杂精巧的任务,例如转笔。

此外,Jim 的成果还有 MineDojo(利用互联网知识构建的开放式代理)、VIMA(最早的机器人操作多模态基础模型之一)等等。其作品还被诸多媒体引用、报道,可谓是硕果累累。

机器人的“GPT-3时刻”:2-3年开启新的篇章

对于具身智能发展现状,Jim认为:现在具身智能发展空前鼎盛,在未来2-3年内,机器人基础模型的研究可能会取得突破性进展,从而实现更通用的机器人能力。

从2023年开始,具身智能热度可谓是水涨船高,无论是高校还是产业,相关的研究可谓是层出不穷。发展至今,人形机器人已经在某些特定领域可以帮助、解放人类的工作,比如手工、做饭、参与工作链等。

NVIDIA 创始人黄仁勋也表示:“开发通用人形机器人基础模型,是当今 AI 领域中最令人兴奋的课题之一。世界各地的机器人技术领导者正在汇集各种赋能技术,致力于在人工通用机器人领域实现突破。”

进入2024年,在黄仁勋大力支持下,Jim 与他的老同事 Yuke Zhu 教授一起,组建起英伟达最壕AI实验室——GEAR (Generalist Embodied Agent Research),立项 Project GR00T ,为通用具身智能体构建基础模型。

GR00T 驱动的机器人,将能够理解自然语言,并通过观察人类行为来模仿动作,来快速学习人类身体的协调性、灵活性和其它技能,以适应现实世界并与之互动。

Jim 认为:2024年,将是属于机器人、游戏AI和模拟的一年。

至于为什么选择人形机器人,Jim是这样回答的:

在李飞飞教授门下时,我就转向了具身智能研究方向。人类社会是围绕人类的化身、人类的外形因素构建的,我们所有的餐馆、工厂、医院以及所有设备和工具——它们都是为人类形态和人类双手设计的。所以我在人形机器人上看到了巨大的潜力。理论上,人类可以做的任何任务。有能力的人形机器人也能做到。 我预测,人形机器人硬件的生态系统只需要两到三年就可以准备就绪。

另外,Jim 还有一个长期愿景:

在未来2-3年内,机器人基础模型的研究就能开启新的篇章。10年后,编码代理模型会有人类软件工程师的水准。人形机器人也一样,会具备人类水平的敏捷性和可靠性。

然而,真正想让机器人落地投产还会牵扯到诸多问题。如果让机器人在日常生活中的广泛采用,我们还有这些问题需要讨论:

  • 技术突破的进度限制;

  • 机器人合理定价和大规模投产成本问题;

  • 硬件安全问题;

  • 个人隐私和机器人相关法律完善问题。

机器人的落地难度与自动驾驶汽车相似,甚至比自动驾驶汽车的普及更加困难啊。

未来挑战:数据采集与模型架构仍是难题

对于当下机器人发展面临的问题,尽管 Jim Fan 对前景持乐观态度,但他认为挑战仍然存在。目前最大的难题,还是数据采集的问题:

英伟达在开发机器人人工智能时,采用了三种数据类型的结合:互联网动作数据、模拟数据、和真实世界机器人数据。三种方法各有优势与不足,只有将它们结合,才是成功的关键。transformer接收token并输出token,受限于数据的质量,机器人的表现也会不尽人意。

针对具身智能的模型架构,Jim 也提出了自己的见解:

所有移动的东西最终都将是自主的,对于机器人模型,我觉得我们还没有突破架构的极限。还是那个问题,数据是一个难题,我们不能从互联网上下载一些人类动作数据,它们不会附带模型控制数据。一旦我们能利用这些高质量操作扩大数据管道,我们就可以将transformer推到极限;一旦数据管道完全开发完成,就可以看到机器人模型出现一些新兴的特性。我愿称之为具身智能的scaling law。

另外,将快速、无意识的运动控制,与较慢、有意识的规划和推理过程,集成到同一个模型中,并让这个模型可以同时运动和推理,依然是机器人尚待突破的技术壁垒。

笔者认为,从现在机器人技术的发展进度来看,机器人也许真的进入了“GPT-3 时刻”。与 GPT-3 等大语言模型进行比较的话,接下来,机器人可能也会出现类似的演变:

首先是专业的通用模型,然后是针对特定任务进行训练的微调模型,最后出现自主思考的模型。

如果未来真的出现自主思考的机器人模型,它会是《终结者》或“Moss”,还是“解放人类双手”的福音呢?

参考资料

 [1]https://the-decoder.com/nvidia-researcher-jim-fan-expects-gpt-3-moment-for-robotics-in-the-next-few-years/#summary  [2]https://blogs.nvidia.cn/blog/foundation-model-isaac-robotics-platform/


http://www.kler.cn/a/313381.html

相关文章:

  • PyTorch使用教程(8)-一文了解torchvision
  • idea中远程调试中配置的参数说明
  • mysql查看binlog日志
  • Apache SeaTunnel 2.3.9 正式发布:多项新特性与优化全面提升数据集成能力
  • Kivy App开发之UX控件TabbedPanel选项面板
  • 第6章:Python TDD实例变量私有化探索
  • 【图像去噪】论文精读:Enhanced CNN for image denoising(ECNDNet)
  • 地图相关的系统软件及插件
  • Linux笔记---简单指令
  • 爬虫----webpack
  • ssrf攻击fastcgi复现及环境搭建
  • ITOP-2 分模块安装部署itop
  • OpenCV系列教程二:基本图像增强(数值运算)、滤波器(去噪、边缘检测)
  • jspdf踩坑 htmltocanvas
  • docker zookeeper集群启动报错:Cannot open channel to * at election address /ip:3888
  • C#身份验证那些事儿之注册服务AddAuthorization和AddAuthentication
  • tomcat的配置
  • 【LLM:Gemini】文本摘要、信息提取、验证和纠错、重新排列图表、视频理解、图像理解、模态组合
  • 避免服务器安装多个mysql引起冲突的安装方法
  • ubuntu安装mongodb实操学习
  • Python画笔案例-055 绘制七彩浪花
  • uni-app页面调用接口和路由(四)
  • 代码随想录算法训练营第三一天| 56. 合并区间 738.单调递增的数字 968.监控二叉树
  • C# 实时流转换为m3u8
  • docker 升级步骤
  • 从一个文本文件中挑选出符合条件的内容行