当前位置：首页 > article >正文

需求驱动的具身导航！DDN：基于用户需求的目标导航任务

article 2025/4/2 9:52:44

作者：Hongcheng Wang, Andy Guan HongChen, Xiaoqi Li, Mingdong Wu
单位：北京大学计算机科学技术学院视觉认知计算实验室，北京大学电子电气工程学院
论文链接：Find What You Want: Learning Demand-conditioned Object Attribute Space for Demand-driven Navigation (https://arxiv.org/pdf/2309.08138)
项目主页：https://sites.google.com/view/demand-driven-navigation
代码链接：https://github.com/whcpumpkin/Demand-driven-navigation

主要贡献

提出需求驱动导航任务（DDN）：论文首次提出了需求驱动导航任务，要求智能体根据用户的需求在环境中找到满足该需求的对象。该任务不再依赖于用户指定特定对象的名称，而是通过用户的需求来指导智能体进行导航。
从大模型（LLM）中提取文本属性特征：为了实现DDN任务，论文提出通过从大模型（如GPT-3）中提取常识知识来学习对象的文本属性特征。这些文本属性特征用于描述对象的功能和特性，从而帮助智能体理解用户的需求。
使用CLIP对文本和视觉特征进行对齐：提出将文本属性特征与视觉属性特征对齐，使用CLIP模型来实现这一目标。通过这种方式，智能体可以利用从LLM中提取的常识知识和CLIP提供的scene-grounding信息来增强导航过程。
需求条件下的属性特征用于导航策略：利用需求条件下的属性特征来指导智能体在环境中寻找满足用户需求的对象。这种方法将多对象目标的搜索简化为单一属性目标的搜索，从而降低了策略学习的复杂性，并提高了导航性能。

研究背景

研究问题

论文主要解决的问题是如何在视觉对象导航（Visual Object Navigation，VON）任务中，当用户无法提供具体对象名称或指定对象不存在时，仍能通过需求驱动导航（DDN）方法满足用户需求。

研究难点

该问题的研究难点包括：

不同真实环境中的对象种类不同，对象类别可能随时间变化；
需求和对象之间的多对多映射关系需要智能体根据常识知识、人类偏好和场景信息进行推理；
智能体需要从对象的视觉几何特征中判断是否满足用户需求，这可能涉及对象的功能性，需要智能体具备常识知识。

问题描述

任务设定

在DDN任务中，智能体被随机初始化在一个未知且无地图的环境中的起始位置和方向。智能体的任务是找到一个满足自然语言需求指令的对象，例如“我口渴了”，要求智能体找到水杯。

符号定义

表示需求指令的集合。
表示可导航的场景集合。
表示现实世界中存在的对象类别集合。
是一个判别器函数，用于判断找到的对象是否满足需求。如果对象满足需求，则输出1；否则输出0。

任务流程

每个回合开始时，智能体在场景中初始化，并提供一个自然语言需求指令。智能体仅使用RGB图像作为传感器输入，需要找到一个满足需求指令的对象。
智能体的动作空间包括前进、旋转右、旋转左、抬头、低头和完成。当智能体选择“完成”动作时，还需要输出一个边界框来指示当前视野中满足需求的对象。

成功标准

导航成功标准：要求视野中有满足需求指令的对象，并且智能体与该对象的水平距离小于某个阈值。
选择成功标准：在导航成功的前提下，输出边界框与满足需求指令的真实边界框之间的交并比（IoU）大于某个阈值。

DDN数据集

数据集构建

数据集的构建是为了模拟真实世界的场景，其中对象和需求指令之间的映射会随着环境的变化而变化。

然而，为了在特定环境中训练智能体，需要一个固定的对象和需求指令之间的映射，称为WG映射（World-Grounding mappings）。

WG映射的生成

WG映射是通过获取环境中的对象类别元数据，并使用GPT-3来建立需求指令和对象之间的固定映射。例如，GPT-3可能会返回“我口渴”对应于“水”、“茶”和“苹果汁”等对象。
具体来说，通过提示工程告知GPT-3实验环境中可能存在的对象类别，然后GPT-3会确定哪些需求可以被这些对象满足，并以需求指令和满足该需求指令的对象的形式返回信息。

数据集的修正和补充

虽然GPT-3生成的WG映射具有一定的准确性，但由于生成过程中存在错误，需要进行手动过滤和补充来纠正和增强数据集。

数据集的使用

生成的WG映射用于训练和测试过程中，仅用于区分选择成功（即实现判别器G）。总共生成了大约2600个WG映射。

研究方法

论文提出了需求驱动导航（DDN）方法，用于解决在VON任务中用户无法提供具体对象名称或指定对象不存在的问题。

文本属性特征学习

知识提取：利用大模型（LLM）提取需求指令和对象之间的常识知识，建立LG映射（language grounding mappings）。通过GPT-3生成需求指令和相应的对象，使用BERT模型编码需求指令，CLIP编码对象，然后将这些特征拼接起来。
对比学习：通过对比学习训练属性模块，使得满足同一需求的不同对象具有相似的属性特征。定义正样本对和负样本对，使用InfoNCE损失函数来优化属性模块。

文本-视觉对齐

使用CLIP模型将文本特征和视觉特征对齐。在导航过程中，使用DETR模型分割视野中的对象区域，并将这些区域投影到CLIP的语义空间中，以获取视觉特征。
将需求BERT特征和CLIP视觉特征拼接起来，输入到属性模块中，使属性模块能够在导航过程中获得scene-grounding信息。

策略学习和视觉定位模型

使用Transformer模型进行策略学习，结合需求条件下的属性特征、BERT特征和全局图像特征来指导智能体的导航行为。
视觉定位模型（VG模型）用于在每个回合结束时输出满足需求的对象的边界框。该模型结合了DETR的特征、全局图像特征、需求BERT特征和CLS标记来进行分类。

实验

实验环境

实验在AI2Thor模拟器和ProcThor数据集上进行。选择了ProcThor的训练、验证和测试集中的200个场景，共计600个场景。实验中使用了109种可用于满足需求指令的对象类别。
从收集的DDN数据集中选择了200个WG映射用于训练，300个用于测试。验证使用的WG映射与训练相同。

基线模型

选择了封闭词汇对象导航算法VTN和开放词汇对象导航算法ZSON作为基线。对这些基线进行了修改以适应DDN任务，并引入了几种变体，如VTN-CLIP-demand、VTN-demand、VTN-GPT、ZSON-demand和ZSON-GPT。
使用了GPT-3和MiniGPT-4这两种大模型（LLM）进行导航策略和识别策略的实验，分别作为基线MiniGPT-4和GPT-3-Prompt*。
还使用了CLIP-Nav和FBE作为导航策略，结合GPT-3和MiniGPT-4作为识别策略，形成了另外两个基线：CLIP-Nav-GPT、CLIP-Nav-MiniGPT-4、FBE-GPT和FBE-MiniGPT-4。

评估指标

导航成功率（Navigation Success Rate, NSR），
路径长度加权的导航成功率（Navigation Success Rate Weighted by Path Length, NSPL），
选择成功率（Selection Success Rate, SSR）。

基线比较

结果显示，VTN-demand略优于随机基线，表明其在一定程度上学会了推断多个潜在目标对象的能力。然而，ZSON-demand的性能低于随机基线，可能是因为CLIP在指令和对象之间的对齐效果不佳。
VTN-GPT和ZSON-GPT表现较差，可能是由于GPT-3生成的语言接地对象在当前环境中不存在，导致智能体进行无意义的搜索。
VTN-CLIP-demand的表现优于VTN-demand，突显了CLIP在有效提取对象特征方面的贡献。
CLIP-Nav的两个变体表现不佳，可能是因为VON和DDN任务在内容上的显著差异。
GPT-3+Prompt的表现显著低于随机基线，主要是因为缺乏视觉输入，导致场景感知不足。
MiniGPT-4尽管模型较小，但表现优于GPT-3+Prompt，表明视觉感知在场景级任务中的重要性。