《具身智能时代:机器人具身抓取技术的前沿探索与应用综述》
自2022年GPT等大模型的爆发以来,人工智能领域以语言模型为代表的预训练模型在多个领域掀起了创新浪潮。到了2024年,DeepSeek等新技术进一步加速了具身智能的发展,特别是在机器人领域,预训练模型的引入深刻改变了传统的感知、决策和执行模式。具身智能(Embodied Intelligence)强调模型在物理环境中的交互能力,并致力于实现机器人与环境的深度结合。得益于互联网规模的数据和更高效的计算资源支持,研究者在过去几年内将预训练模型作为机器人感知、认知和执行的核心工具,加速了具身智能的落地应用。
在这个节点,我们总结并梳理了2022年以来,大模型在机器人领域应用的最具影响力的论文。
内容简介
机器人领域集成了人工智能、机器人学和认知科学,是一个感知,理解,决策和执行的端到端的过程,近年来,以互联网规模数据训练得到的预训练模型在感知、交互和推理方面得到显著提升,将它们作为具身抓取和操作方法的基座,极大推动了机器人应用领域的发展。在本文中,我们对该领域最新进展进行全面综述。首先总结具身基础,包括前沿的具身机器人、仿真平台、数据集和数据获取方式,以充分了解研究重点,然后介绍具身算法,从预训练模型开始,到三个主要研究目标,1)具身感知,利用视觉传感器捕获的数据,得到3D特征或进行三D重建,结合预训练模型,来理解目标物体和外部环境,直接预测执行动作;2) 具身策略,在模仿学习中,利用预训练模型进行数据增强或作为特征提取器增强模型的泛化能力,在强化学习中,通过预训练模型得到最优奖励函数,提升强化学习的学习效率和能力;3)具身代理,预训练模型采用分层执行或整体执行的方式实现端到端的机器人控制。
具身基础
介绍常用的具身机器人,包括灵巧手,机械臂等单一系统,轮式机械臂,四足式机械臂等低集成的移动复合系统,足式人形和轮式人形等高度集成的移动复合系统,以及对应流行的仿真平台、高质量的数据集及数据获取方式。
预训练模型
预训练模型,包括语言模型、视觉模型、视觉语言模型、扩散模型,机器人专用模型,这些模型通过在大规模数据集上进行自我监督学习,积累了丰富的通用特征表示能力,不仅可以提升机器人领域原有模型的泛化能力,使模型能够更好地适应未知环境和任务,还可以通过提供自然语言描述和提示优化下游任务。
具身感知
预训练模型具有丰富的视觉语义先验知识,通常基于点云信息或者进行3D场景重建,结合传统3D视觉抓取方法,使用预训练模型提升了视觉语言引导的机器人抓取能力。
具身策略
具身策略的研究主要集中在模仿学习(Imitation Learning)和强化学习 (Reinforcement Learning, RL)。模仿学习通过采集特定任务的轨迹数据集并用深度神经网络来拟合状态(state)或观测(observation,如第一视角的图像)的时间序列到动作(action)的映射来实现技能的学习。强化学习则是通过让智能体与环境直接交互,在交互的过程中优化预先定义好的与特定任务相关的奖励函数(reward function)来学习新技能。
具身代理
预训练模型直接应用于机器人操作,是近几年提出的新的研究方法,分为两种,1)分层执行。大模型进行高水平任务规划,将长期任务分解为更简单的子任务,无需人工干预,直接使用低级控制策略或由人类提前预设好的技能库执行计划。2) 整体执行,一种是基于预训练模型进行微调,将机器人动作表示为文本标记,并与互联网规模的视觉-语言数据集一起训练,直接得到VLA(视觉-语言-动作模型),机器人获取任务和环境信息直接输出动作。一种是视觉运动规划,通过预训练模型合成视频,并用这个合成视频直接控制机器人。也可以直接用预训练模型生成动作。
参考
[1] Sun J, Mao P, Kong L, et al. A Review of Embodied Grasping[J]. Sensors, 2025, 25(3): 852.