需求驱动的具身导航!DDN:基于用户需求的目标导航任务
-
作者:Hongcheng Wang, Andy Guan HongChen, Xiaoqi Li, Mingdong Wu
-
单位:北京大学计算机科学技术学院视觉认知计算实验室,北京大学电子电气工程学院
-
论文链接:Find What You Want: Learning Demand-conditioned Object Attribute Space for Demand-driven Navigation (https://arxiv.org/pdf/2309.08138)
-
项目主页:https://sites.google.com/view/demand-driven-navigation
-
代码链接:https://github.com/whcpumpkin/Demand-driven-navigation
主要贡献
-
提出需求驱动导航任务(DDN): 论文首次提出了需求驱动导航任务,要求智能体根据用户的需求在环境中找到满足该需求的对象。该任务不再依赖于用户指定特定对象的名称,而是通过用户的需求来指导智能体进行导航。
-
从大模型(LLM)中提取文本属性特征: 为了实现DDN任务,论文提出通过从大模型(如GPT-3)中提取常识知识来学习对象的文本属性特征。这些文本属性特征用于描述对象的功能和特性,从而帮助智能体理解用户的需求。
-
使用CLIP对文本和视觉特征进行对齐:提出将文本属性特征与视觉属性特征对齐,使用CLIP模型来实现这一目标。通过这种方式,智能体可以利用从LLM中提取的常识知识和CLIP提供的scene-grounding信息来增强导航过程。
-
需求条件下的属性特征用于导航策略:利用需求条件下的属性特征来指导智能体在环境中寻找满足用户需求的对象。这种方法将多对象目标的搜索简化为单一属性目标的搜索,从而降低了策略学习的复杂性,并提高了导航性能。
研究背景
研究问题
论文主要解决的问题是如何在视觉对象导航(Visual Object Navigation,VON)任务中,当用户无法提供具体对象名称或指定对象不存在时,仍能通过需求驱动导航(DDN)方法满足用户需求。
研究难点
该问题的研究难点包括:
-
不同真实环境中的对象种类不同,对象类别可能随时间变化;
-
需求和对象之间的多对多映射关系需要智能体根据常识知识、人类偏好和场景信息进行推理;
-
智能体需要从对象的视觉几何特征中判断是否满足用户需求,这可能涉及对象的功能性,需要智能体具备常识知识。
相关工作
-
视觉导航:
-
视觉导航任务涉及智能体使用视觉信息来达到目标位置,包括视觉对象导航(VON)、视觉语言导航(VLN)和视觉音频导航(VAN)。DDN任务使用自然语言描述需求,并要求智能体在当前场景中找到匹配需求的对象,可以被视为VON和VLN的结合。
-
VON任务通常分为两类:封闭词汇对象导航和开放词汇对象导航。封闭词汇导航的目标对象类别是预定义的,而开放词汇导航则允许更广泛的对象类别。
-
VLN任务要求智能体遵循逐步指令在未见过的环境中导航,而DDN任务提供高层次的需求指令,并要求智能体推断当前场景中满足需求指令的对象。
-
-
大模型在机器人中的应用:
-
近年来,LLM在各种语言任务上表现出色,如文本分类和常识推理。研究人员正在探索如何利用LLM的知识来控制或协助机器人执行任务。
-
LM-Nav结合了多个预训练模型(如GPT-3、CLIP和ViNG)来实现无训练的户外导航。SayCan使用LLM解释高级人类指令以获得详细的低级指令。PaLM-E将视觉图像投影到与语言相同的语义空间,使机器人能够视觉感知世界。
-
与这些方法不同,论文提出的方法不直接使用LLM进行指令推理,而是利用LLM学习对象的属性特征,以帮助智能体在无地图场景中学习有效的导航策略。此外,论文还使用LLM生成所需的数据集。
-
问题描述
任务设定
在DDN任务中,智能体被随机初始化在一个未知且无地图的环境中的起始位置和方向。智能体的任务是找到一个满足自然语言需求指令的对象,例如“我口渴了”,要求智能体找到水杯。
符号定义
-
表示需求指令的集合。
-
表示可导航的场景集合。
-
表示现实世界中存在的对象类别集合。
-
是一个判别器函数,用于判断找到的对象是否满足需求。如果对象满足需求,则输出1;否则输出0。
任务流程
-
每个回合开始时,智能体在场景 中初始化,并提供一个自然语言需求指令 。智能体仅使用RGB图像作为传感器输入,需要找到一个满足需求指令的对象。
-
智能体的动作空间包括前进、旋转右、旋转左、抬头、低头和完成。当智能体选择“完成”动作时,还需要输出一个边界框 来指示当前视野中满足需求的对象。
成功标准
-
导航成功标准:要求视野中有满足需求指令的对象,并且智能体与该对象的水平距离小于某个阈值 。
-
选择成功标准:在导航成功的前提下,输出边界框 与满足需求指令的真实边界框之间的交并比(IoU)大于某个阈值 。
DDN数据集
数据集构建
数据集的构建是为了模拟真实世界的场景,其中对象和需求指令之间的映射会随着环境的变化而变化。
然而,为了在特定环境中训练智能体,需要一个固定的对象和需求指令之间的映射,称为WG映射(World-Grounding mappings)。
WG映射的生成
-
WG映射是通过获取环境中的对象类别元数据,并使用GPT-3来建立需求指令和对象之间的固定映射。例如,GPT-3可能会返回“我口渴”对应于“水”、“茶”和“苹果汁”等对象。
-
具体来说,通过提示工程告知GPT-3实验环境中可能存在的对象类别,然后GPT-3会确定哪些需求可以被这些对象满足,并以需求指令和满足该需求指令的对象的形式返回信息。
数据集的修正和补充
虽然GPT-3生成的WG映射具有一定的准确性,但由于生成过程中存在错误,需要进行手动过滤和补充来纠正和增强数据集。
数据集的使用
生成的WG映射用于训练和测试过程中,仅用于区分选择成功(即实现判别器G)。总共生成了大约2600个WG映射。
研究方法
论文提出了需求驱动导航(DDN)方法,用于解决在VON任务中用户无法提供具体对象名称或指定对象不存在的问题。
文本属性特征学习
-
知识提取:利用大模型(LLM)提取需求指令和对象之间的常识知识,建立LG映射(language grounding mappings)。通过GPT-3生成需求指令和相应的对象,使用BERT模型编码需求指令,CLIP编码对象,然后将这些特征拼接起来。
-
对比学习:通过对比学习训练属性模块,使得满足同一需求的不同对象具有相似的属性特征。定义正样本对和负样本对,使用InfoNCE损失函数来优化属性模块。
文本-视觉对齐
-
使用CLIP模型将文本特征和视觉特征对齐。在导航过程中,使用DETR模型分割视野中的对象区域,并将这些区域投影到CLIP的语义空间中,以获取视觉特征。
-
将需求BERT特征和CLIP视觉特征拼接起来,输入到属性模块中,使属性模块能够在导航过程中获得scene-grounding信息。
策略学习和视觉定位模型
-
使用Transformer模型进行策略学习,结合需求条件下的属性特征、BERT特征和全局图像特征来指导智能体的导航行为。
-
视觉定位模型(VG模型)用于在每个回合结束时输出满足需求的对象的边界框。该模型结合了DETR的特征、全局图像特征、需求BERT特征和CLS标记来进行分类。
实验
实验环境
-
实验在AI2Thor模拟器和ProcThor数据集上进行。选择了ProcThor的训练、验证和测试集中的200个场景,共计600个场景。实验中使用了109种可用于满足需求指令的对象类别。
-
从收集的DDN数据集中选择了200个WG映射用于训练,300个用于测试。验证使用的WG映射与训练相同。
基线模型
-
选择了封闭词汇对象导航算法VTN和开放词汇对象导航算法ZSON作为基线。对这些基线进行了修改以适应DDN任务,并引入了几种变体,如VTN-CLIP-demand、VTN-demand、VTN-GPT、ZSON-demand和ZSON-GPT。
-
使用了GPT-3和MiniGPT-4这两种大模型(LLM)进行导航策略和识别策略的实验,分别作为基线MiniGPT-4和GPT-3-Prompt*。
-
还使用了CLIP-Nav和FBE作为导航策略,结合GPT-3和MiniGPT-4作为识别策略,形成了另外两个基线:CLIP-Nav-GPT、CLIP-Nav-MiniGPT-4、FBE-GPT和FBE-MiniGPT-4。
评估指标
-
导航成功率(Navigation Success Rate, NSR),
-
路径长度加权的导航成功率(Navigation Success Rate Weighted by Path Length, NSPL),
-
选择成功率(Selection Success Rate, SSR)。
基线比较
-
结果显示,VTN-demand略优于随机基线,表明其在一定程度上学会了推断多个潜在目标对象的能力。然而,ZSON-demand的性能低于随机基线,可能是因为CLIP在指令和对象之间的对齐效果不佳。
-
VTN-GPT和ZSON-GPT表现较差,可能是由于GPT-3生成的语言接地对象在当前环境中不存在,导致智能体进行无意义的搜索。
-
VTN-CLIP-demand的表现优于VTN-demand,突显了CLIP在有效提取对象特征方面的贡献。
-
CLIP-Nav的两个变体表现不佳,可能是因为VON和DDN任务在内容上的显著差异。
-
GPT-3+Prompt的表现显著低于随机基线,主要是因为缺乏视觉输入,导致场景感知不足。
-
MiniGPT-4尽管模型较小,但表现优于GPT-3+Prompt,表明视觉感知在场景级任务中的重要性。
消融研究
进行了三个消融实验,分别移除了属性预训练、属性Transformer和BERT编码器。
结果表明,移除属性预训练会导致性能显著下降,特别是在未见过的指令设置中。
移除属性Transformer也会导致性能下降,表明Transformer网络在捕捉对象属性特征方面更有效。
总结
论文提出了需求驱动导航(DDN)方法,要求智能体在当前环境中找到满足用户需求的对象。DDN任务依赖于常识知识、人类偏好和场景信息进行推理,对具身智能体提出了新的挑战。
DDN方法通过从LLMs中提取需求条件下的对象属性特征,并使用CLIP进行文本与视觉对齐,有效地辅助了导航任务。实验结果表明,该方法在AI2Thor数据集上是有效的。