π0:仅有3B数据模型打通Franka等7种机器人形态适配,实现0样本的完全由模型自主控制方法
Chelsea Finn引领的Physical Intelligence公司,专注于打造先进的机器人大模型,近日迎来了一个令人振奋的里程碑。在短短不到一年的时间内,该公司成功推出了他们的首个演示版本。这一成就不仅展示了团队的卓越技术实力,也预示着机器人技术的未来发展将更加智能化和高效。
想象一下,一个机器人能够轻松地洗衣服、冲咖啡,所有这些动作都无需人工遥控,完全由模型自主控制。这不仅仅是一个梦想,而是由Physical Intelligence(简称π)这家今年新成立的初创公司所开发的通用型机器人控制模型π0实现的。π0的参数量仅为3B,却能驾驭各种类型的机器人。这个强大的模型不仅训练了众多不同的机器人,还从预训练的视觉语言模型(VLM)中汲取了丰富的语义知识和视觉理解能力。VLM经过训练,能够对网络上的文本和图像进行建模。π0正是以这种广泛使用的VLM为起点,通过调整适应实时灵巧的机器人控制需求,展现出其惊人的能力。
在成立之初,π公司便迅速斩获了高达7000万美元(约合5亿人民币)的A轮融资,其中不乏科技巨头OpenAI的身影。这家新兴企业致力于研发一款革命性的通用机器人控制模型。
而π0,作为他们的开山之作,标志着这一宏伟目标的初步实现。π0适配Franka机器人等7种机器人直接控制π团队最新展示的机器人技术令人瞩目,它们能够执行一系列对机器人来说极具挑战性的任务,如叠衣服、整理桌面和装鸡蛋盒。这些任务不仅要求机器人进行长时间的连续决策,还必须在动作上达到高频率和精确度的双重标准。更复杂的是,它们还涉及到各种材料的接触动力学,例如衣物的变形、纸箱的硬度和鸡蛋的易碎性。为了成功完成这些任务,Franka等机器人必须精确地模拟并控制这些复杂的物理过程,并满足额外的物理约束条件,比如保持物体平衡和避免碰撞。π0不仅能控制机器人,还能控制不同类型的机器人,出色地完成这些任务。Franka机器人七轴力控Franka机器人设置有两个摄像头和一个8维的配置和动作空间,其中关节力控功能在一些任务当中尤为重要UR5e单臂一个配备平行爪夹持器的手臂,带有一个腕部安装和一个肩上摄像头,总共提供两张相机图像和一个7维的配置和动作空间双臂UR5e 两个UR5e设置,总共提供三张相机图像和一个14维的配置和动作空间其他不再介绍。π0的零样本任务评估在零样本任务评估中,研究人员对经过预训练的π0模型进行了严格的测试。他们要求模型在未接受特定任务训练的情况下,执行一系列复杂任务,包括衬衫折叠、简易餐桌清理(bussing easy)、高难度餐桌清理(bussing hard)以及食品杂货装袋等。实验结果令人瞩目:π0模型在所有零样本任务中均展现出卓越的表现,证明了其非凡的泛化能力。特别是在衬衫折叠任务中,模型几乎达到了完美的成功率;而在简易餐桌清理任务中,也显示出了极高的准确度。
在众多模型中,π0模型以其卓越的性能脱颖而出。相较于OpenVLA和Octo,它们在任务执行上的表现明显不足。OpenVLA受限于其自回归离散化架构,难以有效处理动作分块,导致任务执行困难重重。而Octo虽然支持动作分块,但其有限的表示能力难以满足复杂任务的需求。这些对比结果充分展示了π0模型的优势:它将大规模表达性架构与流匹配技术相结合,在零样本的情况下也能轻松应对各种任务。
π0的零样本机器人操作基于Franka机器人π0的0样本分配任务 象一下,一个双臂灵活的机器人正轻松地完成家务。它优雅地走到洗衣机前,轻轻打开舱门,然后灵巧地将洗净的衣物一件件取出,整齐地放入筐中。这一幕不仅展示了机器人的实用性,也让我们对未来智能生活的便捷与高效充满了期待。接着,她轻巧地走到另一张桌子前,小心翼翼地从筐中取出衣物。她的动作温柔而细致,将每一件衣物平铺开来,然后巧妙地折叠整齐。这一系列动作如同优雅的舞蹈,展现了她对日常家务的熟练和热爱。在整理桌面的使命中,我们的主角——一位单臂机器人,展现出了非凡的效率。它灵巧地将珍贵的物品分类放入收纳筐,而那些不再需要的物品则被精准地投入垃圾桶。这不仅是一场清洁的仪式,更是对空间秩序的一次优雅重塑。即使在物品与垃圾交错混杂的情况下,我们的系统依然能够精确执行任务。“显然,π0在零样本泛化、语言控制响应、新任务学习和多阶段任务处理等方面的表现令人瞩目。它不仅能够灵活适应新任务,还能在不同阶段的任务中展现出卓越的性能。”
零样本泛化能力上,π0在所有任务上都显著超过了baseline模型,即使未加入预训练视觉模型的π0-small也比这些baseline表现优异。π0的计算效率在指令处理领域,π0展现了卓越的自主性能,尤其在人类指导下的三个语言指令任务中表现最佳。此外,其高层策略指导能力也得到了显著提升。面对与预训练数据差异较大的新任务挑战,π0在大多数情况下都能提供最佳的性能表现,特别是在微调数据量有限的情况下,其优势尤为突出。这表明π0无需额外训练即可使机器人自动完成众多开放性任务,展现了其强大的适应性和灵活性。
在一系列极具挑战性的复杂任务中,π团队对π0进行了微调和语言指令测试,展现了其卓越的性能。π0成功完成了如折衣服、整理餐桌、组装纸箱和装鸡蛋等耗时5至20分钟的任务,平均得分超过50%。在Franka机器人抽屉物品放置任务中,尽管缺乏预训练中的类似任务,π0仍展现出了“困难”级别的能力。而在UR5e堆叠碗任务中,由于涉及抓取和移动碗的动作与预训练数据相似,π0轻松地将其归为“简单”层级。此外,在纸巾更换任务中,尽管面临未见过的物品挑战,π0也表现出了“困难”级别的处理能力。总体来看,π0的计算效率和实时性表现突出,虽然距离实现网友期待的普及应用还有提升空间,但其潜力不容忽视。
那么,π团队在π0模型上,都运用了什么样的技术呢?π0的视觉模型原理探索π0,这款由视觉模型PaLM-ViT演化而来的先进系统,它不仅保留了原始模型的核心特性,还增添了创新元素:一个投影层、一个多层感知机和一个小巧的动作专家模块。投影层专门负责处理机器人状态与动作的输入输出,而多层感知机则精妙地整合了流匹配时间步信息。动作专家模块则独立地处理机器人状态和动作tokens,赋予模型更高的灵活性和效率。π0的输入涵盖了图像、语言指令、机器人本体感受状态以及噪声动作块,其中图像和语言tokens被送入VLM主干网络进行深度分析,而状态和动作tokens则由动作专家模块精心处理。最终,π0能够输出动作块的精确向量场表示,为机器人操作提供强大的决策支持。
π0模型以其先进的条件流匹配技术,在连续动作分布建模领域独树一帜。这种方法通过逐步引入噪声简化数据分布,再逐步去除噪声以恢复隐私数据,与扩散模型的核心理念不谋而合。然而,流匹配技术的独特之处在于直接建模数据与噪声分布之间的映射场,而非像扩散模型那样学习每个去噪步骤的条件分布。这种创新方法使得π0能够精确捕捉复杂的多峰分布,特别适合于需要高频灵巧操作的任务。在训练数据方面,π0模型在迄今为止最大的机器人交互数据集上进行了深入训练。预训练阶段的数据集涵盖了OXE、DROID、Bridge等开源数据集,以及团队在8个不同机器人平台上收集的大量灵巧任务数据。团队自行收集的数据集包含68个任务,涉及单臂任务106M步和双臂任务797M步,均采用50Hz的高频控制。开源数据与团队自收集数据的比例约为1:9。为了使π0掌握特定复杂技能,团队还在20多个下游任务上进行了微调,微调数据量根据任务难度和相似度从5小时到100多小时不等,并在一些任务中结合了高层语言策略模块来分解复杂目标。正如团队成员切尔西·芬所言:“预训练旨在让模型适应各种场景,而微调则是为了让π0掌握更多的策略。”“不造机器人”的机器人公司PPhysical Intelligence,一家今年成立的新兴企业,已经成功筹集了7000万美元的A轮融资,这一成就在业界引起了广泛关注。本轮融资由知名风险投资公司红杉资本领投,同时还有包括人工智能领域的翘楚OpenAI在内的六家公司参与投资。值得一提的是,该公司还有一个富有创意的简称——π。这个名称不仅源于Physical Intelligence的缩写pi,而且巧妙地呼应了数学中圆周率π的拉丁文转写,展现了公司对科技与智慧的无限追求。"尽管π公司在机器人领域享有盛誉,但它并不涉足实体机器人的生产。相反,π专注于开发和训练先进的机器学习模型,旨在打造一个多功能、适应性强的通用机器人模型。"公司联合创始人兼首席执行官卡罗尔·豪斯曼(Karol Hausman)在一次公开演讲中阐述了这一愿景。CEO卡罗尔·豪斯曼(Karol Hausman),此前曾是谷歌大脑机器人操作研究主管,2021年至今兼任斯坦福客座教授。联创切尔西·芬(Chelsea Finn),斯坦福计算机科学和电气工程系助理教授,谷歌学术论文引用数超4.7万。此外,还有谷歌大脑机器人团队前科学家布赖恩·伊希特(Brian Ichter)、丰田研究院ML研究团队的研究科学家苏拉吉·奈尔(Suraj Nair)等。参考链接:[1]https://www.physicalintelligence.company/blog/pi0
https://www.physicalintelligence.company/download/pi0.pdf