V-HOP:结合视觉和触觉多模态融合数据集,助力机器人实现鲁棒的6D物体姿态跟踪
2025-02-25,由布朗大学和德州大学达拉斯分校联合创建了V-HOP数据集,目的通过结合视觉和触觉信息实现鲁棒的6D物体姿态跟踪。该数据集的最大特点是包含了多种机械手和物体的多模态数据,能够有效支持跨机械手和跨物体的泛化能力,为机器人在复杂环境下的精准操作提供了更强大的感知支持。
一、研究背景
在机器人操作任务中,准确跟踪物体的6D姿态(位置和方向)是实现高效、精准操作的核心能力。然而,仅依靠视觉信息在复杂场景下(如高遮挡、快速动态交互)往往难以满足需求。因此,研究者们尝试将视觉与触觉信息相结合,以模拟人类在操作物体时的多模态感知能力,从而提高机器人在复杂环境下的操作鲁棒性。
目前遇到的困难和挑战:
跨机械手泛化能力不足:现有的方法通常只能在特定的机械手或触觉传感器布局上表现良好,难以泛化到其他类型的机械手或传感器。
数据多样性不足:触觉数据的多样性和规模有限,导致模型在不同场景下的适应性较差。
独立帧处理导致跟踪不连贯:大多数方法仅对单帧数据进行处理,缺乏对序列数据的时间一致性,导致在真实场景中跟踪效果不佳。
数据集地址:V-HOP|机器人视觉数据集|物体姿态跟踪数据集
二、让我们来看一下V-HOP
V-HOP数据集是一个多模态数据集,结合了视觉和触觉信息,用于训练和评估6D物体姿态跟踪模型,支持多种机械手和物体的跨模态泛化能力。
V-HOP数据集包含约155万张图像,涵盖了8种不同的机械手和13种物体。数据集通过NVIDIA Isaac Sim模拟器生成,支持多模态输入,包括RGB-D图像、触觉传感器数据和机械手的关节信息。数据集的设计旨在支持跨机械手和跨物体的泛化能力,同时提供足够的多样性以应对真实世界中的复杂场景。
数据集构建:
数据集的构建基于NVIDIA Isaac Sim模拟器,通过模拟不同的机械手和物体的交互场景,生成了大量的RGB-D图像和触觉数据。为了确保数据的多样性和泛化能力,研究人员选择了多种常见的机械手和物体,并在不同的位置、姿态和遮挡条件下采集数据。此外,数据集还包含了机械手的关节信息和触觉传感器的接触状态,为模型提供了丰富的多模态输入。
数据集特点:
多模态融合:数据集同时包含视觉和触觉信息,支持多模态融合的6D姿态跟踪。
跨机械手泛化:支持多种机械手,包括Barrett Hand、Shadow Hand、Allegro Hand等,能够有效泛化到未见过的机械手。
高遮挡场景:数据集设计了高遮挡场景,模拟真实世界中物体被部分遮挡的情况,提高模型的鲁棒性。
大规模数据:包含约155万张图像,提供了丰富的训练和测试样本。
基准测试
为了验证数据集的有效性,研究人员在V-HOP数据集上进行了基准测试,比较了基于视觉的FoundationPose和基于多模态的V-HOP模型。结果显示,V-HOP在ADD-S指标上比FoundationPose提高了5%,在FeelSight数据集上更是实现了32%的性能提升,同时运行速度提高了10倍,证明了数据集在支持多模态融合和泛化能力方面的优势。
用于 6D 物体姿态跟踪的视觉触觉传感。我们融合了以自我为中心的视觉和触觉传感,以实现准确的实时手部物体跟踪。
V-HOP的网络设计通过统一的触觉表示和基于Transformer的多模态融合,实现了视觉和触觉信息的有效结合。这种设计不仅提高了姿态估计的鲁棒性,还在动态和遮挡场景中表现出色,同时具备良好的泛化能力。
V-HOP(Visuo-Haptic 6D Object Pose Tracking)
是一种结合视觉和触觉信息的6D物体姿态跟踪方法。其网络设计的核心目标是通过融合视觉和触觉模态,实现鲁棒的物体姿态估计,并在动态和遮挡场景中保持良好的跟踪性能。
V-HOP的网络架构基于Transformer,其设计灵感来源于人类多模态感知的“最优融合”原则。网络分为两个主要部分:视觉模态和触觉模态。这两个模态的特征通过自注意力机制进行融合,最终输出物体的6D姿态(3D旋转和3D平移)。
视觉模态(Visual Modality)
视觉模态的输入是RGB-D图像,网络使用预训练的视觉基础模型(如FoundationPose)来提取视觉特征。具体步骤如下:
-
视觉编码器:使用预训练的视觉编码器 fv 将RGB-D图像 O 转换为视觉嵌入 Zv=fv(O)。
-
特征融合:将多个时间步的视觉特征通过ResBlock进行融合,以捕捉时间序列信息。
-
预训练模型的优势:通过利用预训练的视觉模型,V-HOP能够继承高质量的视觉先验知识,从而在新物体和新场景中表现出良好的泛化能力。
触觉模态(Haptic Modality)
触觉模态的核心是将触觉信号和手部姿态信息统一表示为点云,并通过编码器提取触觉特征。具体步骤如下:
-
手部点云表示:通过URDF(Unified Robot Description Format)和关节位置 j,生成手部网格并下采样为9D手部点云 Ph。每个点包含位置、法线和接触状态标签。
-
物体点云表示:根据上一时刻估计的姿态 Ti−1,将物体模型点云 PΦ 变换为假设点云 Po。
-
手-物点云融合:将手部点云和假设物体点云合并为一个手-物点云 P=Ph∪Po,用于表示手-物交互。
-
触觉编码器:使用PointNet++作为触觉编码器 fh,将手-物点云 P 编码为触觉嵌入 Zh=fh(P)。
多模态融合(Visuo-Haptic Fusion)
视觉和触觉特征的融合是V-HOP的关键部分,其设计灵感来源于人类的多模态感知机制。具体步骤如下:
-
自注意力机制:将视觉嵌入 Zv 和触觉嵌入 Zh 输入到Transformer编码器中,通过自注意力机制动态调整两种模态的权重。这种设计允许网络根据场景的上下文(如是否有接触、是否遮挡)自适应地融合视觉和触觉信息。
-
动态权重调整:通过Grad-CAM分析,V-HOP在没有接触时主要依赖视觉信息,而在接触且遮挡严重时更多地依赖触觉信息。
姿态估计(Pose Estimation)
V-HOP将6D姿态分解为3D平移和3D旋转,并通过两个输出头分别估计它们:
-
相对姿态估计:网络估计假设姿态和真实观测之间的相对姿态变化 ΔT=(ΔR,Δt)。
-
最终姿态更新:通过将相对姿态变化应用于假设姿态,得到最终的物体姿态估计 T=ΔT⋅T。
训练策略
V-HOP通过在假设姿态下生成渲染图像,并将其与真实观测进行比较来训练网络。通过在假设姿态和真实观测之间添加噪声,网络学习估计相对姿态变化,从而优化姿态估计的准确性。
数据集示例可视化。(顶行)Barrett Hand、Shadow Hand、Allegro Hand、SHUNK SVH。(底行)D'Claw、LEAP Hand、Inspire Hand、Robotiq 3 指抓手。
姿势跟踪序列的定性结果。我们使用 YCB 对象验证现实世界中的性能。此图中突出显示了杯子和电钻,而附录中则突出显示了更多对象的结果。
双手动切换实验。在这个实验中,机器人执行双手动作,将目标物体运送到盒子上。V-HOP 集成视觉和触觉输入,实时准确跟踪手中物体的姿势,从而实现稳定的切换性能。更多天体的结果可以在附录中找到。
双手动交接任务的稳健性测试。(左)对象被放置在各种随机位置。(右)当机器人试图抓住物体时,人类通过将物体移动到不同的位置来扰乱它。
罐装马克杯任务。(上图)机器人抓住罐子并将其插入马克杯中。(下)机器人使用双合手抓住罐头和杯子,并将罐子插入中间的杯子中。
视觉和触觉模态对最终预测的权重。我们在右上角叠加了使用 GradCAM Selvaraju et al. 计算的模态权重。
三、让我们一起来看一下V-HOP的应用场景
以前在工业生产线上,机器人主要依靠简单的视觉系统或者预设的程序来完成任务。比如,一个机器人要抓取零件,它只能按照固定的位置和方式去抓,如果零件位置稍微有点偏,或者形状有点不一样,它可能就抓不到了。而且,传统的自动化系统灵活性比较差,一旦生产线上出现新的零件或者任务,就需要重新编程和调整。
现在有了V-HOP数据集,情况就大不相同了。
V-HOP数据集通过多模态融合(视觉和触觉)的方式,让机器人变得更加“聪明”。机器人不仅能“看”到物体,还能“摸”到物体,通过触觉反馈来调整抓取动作。比如,当机器人抓取一个形状不规则的零件时,它可以根据触觉信息感知到零件的形状和位置,然后灵活调整抓取方式,即使零件位置有偏差或者形状有点变化,也能准确抓取。
而且,V-HOP数据集还能让机器人更好地适应不同的任务和物体。以前,如果生产线上换了一种新的零件,可能需要重新调整机器人的程序。但现在,机器人通过学习V-HOP数据集中的多样化数据,能够快速适应新的零件和任务,不需要再花费大量时间重新编程。
另外,V-HOP数据集还能提高生产效率和质量。以前,机器人在抓取过程中可能会因为视觉遮挡或者位置不准确而抓取失败。现在,通过触觉和视觉的结合,机器人可以更精准地定位和抓取物体,减少了抓取失败的情况,提高了生产效率。同时,这种多模态的感知方式也让机器人在操作过程中更加稳定,减少了因操作失误导致的质量问题。
总的来说,V-HOP数据集让工业自动化变得更加灵活、高效和精准,机器人在生产线上能够更好地应对各种复杂的情况,适应不同的任务和物体,大大提升了工业生产的智能化水平。
想要了解更多具身智能数据集,请打开具身智能主题:
具身智能具身智能是指通过身体与环境的交互,智能体能够获得感知、学习与决策能力的现象。与传统的认知智能不同,具身智能强调身体在认知过程中的重要性,认为智能不仅仅依赖于大脑处理信息,还依赖于感知器官和执行器的反馈机制。通过身体的动态调整与环境的实时互动,具身智能能够更有效地适应复杂多变的环境,推动机器人和...https://www.selectdataset.com/subject/1866398201374404609