当前位置: 首页 > article >正文

TPAMI-2025 | 中山大学具身导航参数高效训练!NavCoT:通过解耦推理提升基于大模型的视觉语言导航

  • 作者:Bingqian Lin 1 ^{1} 1, Yunshuang Nie 1 ^{1} 1, Ziming Wei 1 ^{1} 1, Jiaqi Chen 2 ^{2} 2, Shikui Ma 3 ^{3} 3, Jianhua Han 4 ^{4} 4, Hang Xu 4 ^{4} 4, Xiaojun Chang 5 ^{5} 5, Xiaodan Liang 1 ^{1} 1
  • 单位: 1 ^{1} 1中山大学, 2 ^{2} 2香港大学, 3 ^{3} 3Dataa Robotics公司, 4 ^{4} 4华为诺亚方舟实验室, 5 ^{5} 5悉尼科技大学
  • 论文标题:NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning
  • 论文链接:https://arxiv.org/abs/2403.07376
  • 代码链接:https://github.com/expectorlin/NavCoT

主要贡献

  • 论文提出导航思维链(NavCoT),使大语言模型(LLMs)能够进行可训练的自我引导导航推理,提高导航决策的准确性和可解释性。
  • 采用参数高效的领域内训练方法,以低成本的方式将LLMs适应于视觉语言导航(VLN)任务,提高了模型的可扩展性。
  • 通过显式地生成导航思维链,NavCoT能够在行动决策中提供更好的解释性,使得模型的行为更加透明和可理解。
  • 在多个典型的VLN基准数据集上进行的实验结果表明,NavCoT在性能上显著优于直接行动预测变体和基于高成本LLMs的方法。

研究背景

研究问题

  • 视觉语言导航(VLN)要求具身智能体根据自然语言指令在复杂的3D环境中导航。
  • 尽管大语言模型(LLMs)在VLN中显示出潜力,但其离线使用通常存在显著的领域差距问题。

研究难点

该问题的研究难点包括:

  • VLN任务与大语言模型(LLMs)训练语料库之间存在显著的领域差距;
  • LLMs通常以离线方式使用,导致可扩展性差和领域适应性问题。

相关工作

  • 视觉语言导航

    • VLN任务近年来受到了广泛关注,许多工作致力于探索数据增强技术和有用的模型架构,以缓解数据稀缺和提高跨模态对齐。
    • 预训练方法被广泛应用于VLN领域,以提高对新环境的泛化能力。然而,现有的VLN智能体在需要丰富常识知识的现实应用场景中仍然面临挑战,并且通常缺乏足够的行动决策可解释性。
    • 近期的一些工作引入了大语言模型(LLMs)作为导航骨干,利用其丰富的知识存储能力来简化行动决策。这些方法通过自监督学习或领域内训练来更好地适应具身任务。
  • LLMs在具身AI中的应用

    • LLMs因其在大规模语料库上的训练而展现出强大的规划、推理和反思能力,以协助完成具身任务。
    • 一些工作结合LLMs与环境反馈来提高任务完成的效率。最近的研究采用了领域内训练来更好地适应具身任务,例如通过创建大规模的具身规划数据集来适应LLMs。
  • 思维链Prompt

    • 思维链(CoT)Prompt是一种强大的上下文学习技术,用于激发LLMs的多步推理能力。通过详细阐述中间推理步骤形成CoT,而不是仅在Prompt中生成答案,LLMs可以学会为特定任务生成输出,从而提高推理准确性。
    • 现有的CoT方法大多在离线和无约束的情况下Prompt LLMs生成CoT。在这项工作中,作者将世界模型理论引入到CoT机制中,并通过收集形式化的真实标签来约束LLMs生成统一格式的CoT输出,从而简化训练过程。

基础知识

问题设定

  • VLN任务要求智能体根据自然语言指令从起始视角导航到目标视角。
  • 在每个时间步 t t t,智能体接收一个包含多个单视图观察的全景观察 O t O_t Ot,并从中选择一个可导航的视角进行动作选择。
  • 动作空间由可导航的视角和一个停止标记组成。智能体的历史动作用于指导当前的动作决策。
  • 成功的导航轨迹是指智能体在目标视角的三米范围内停止。

大语言模型

  • 将LLMs应用于非语言的具身任务近年来受到越来越多的关注。LLMs大致分为两类:
    • 一类是使用闭源LLMs(如GPT-4)进行离线处理,这可能面临可扩展性差和严重的领域差距问题;
    • 另一类是引入较小的开源LLMs(如LLaMA系列),这些模型可以在本地部署和训练。
  • 论文中采用了两种开源LLMs:LLaMA-Adapter和LLaMA 2。
    • LLaMA-Adapter是一种轻量级的适配方法,通过较少的时间和参数对LLaMA 1进行微调。
    • LLaMA 2是LLaMA 1的更新版本,具有更大的参数规模和更长的上下文长度。论文中使用了LLaMA 2的7B变体,并采用了一种偏置调整策略来实现参数高效的微调。

方法

视觉转文本系统

  • 在每个时间步 t t t,首先使用视觉转文本系统将周围观察转换为语言描述。观察 O t , n O_{t, n} Ot,n 包含RGB图像 B t , n B_{t, n} Bt,n 和方向信息 A t , n = { ψ t , n , θ t , n } A_{t, n} = \{\psi_{t, n}, \theta_{t, n}\} At,n={ψt,n,θt,n},其中 ψ t , n \psi_{t, n} ψt,n θ t , n \theta_{t, n} θt,n 分别表示方向和仰角。
  • 使用图像描述模型BLIP将视觉信息 B t , n B_{t, n} Bt,n 转换为描述 D t , n v D_{t, n}^{v} Dt,nv
    D t , n v = F v ( B t , n ) D_{t, n}^{v} = F_{v}(B_{t, n}) Dt,nv=Fv(Bt,n)
  • 将方向信息 A t , n A_{t, n} At,n 映射到六个基本方向的文本表示(如“左转”和“向上”),并将最终的方向信息表示为 D t , n a D_{t, n}^{a} Dt,na。每个观察的最终文本描述 D t , n D_{t, n} Dt,n 通过字符串连接获得:
    D t , n = cat ⁡ ( D t , n a , D t , n v ) D_{t, n} = \operatorname{cat}(D_{t, n}^{a}, D_{t, n}^{v}) Dt,n=cat(Dt,na,Dt,nv)

导航思维链Prompt

  • LLM通过Prompt生成导航思维链,以指导导航行动预测。思维链包括三个中间推理步骤:未来想象(FI)、视觉信息过滤(VIF)和行动预测(AP)。
  • 未来想象(FI):LLM根据指令和导航进度生成对下一个观察的想象。想象 U t U_t Ut 的输出格式为:
    Imagination:  U t \text{Imagination: } U_{t} Imagination: Ut
  • 视觉信息过滤(VIF):LLM选择与想象最匹配的候选观察。过滤后的观察 V t V_t Vt 的输出格式为:
    Filtered observation:  V t  matches the imagination \text{Filtered observation: } V_{t} \text{ matches the imagination} Filtered observation: Vt matches the imagination
  • 行动预测(AP):LLM根据FI和VIF的推理进行最终的行动预测。行动 a t a_t at 的输出格式为:
    Action:  a t \text{Action: } a_{t} Action: at

真实标签收集

  • 为了实现零样本行动决策,作者基于现有的VLN数据收集导航思维链的真实标签。通过使用CLIP模型计算指令中提到的地标与观察之间的相似性,来获取地标的真实想象标签 U t ∗ U_{t}^{*} Ut
    U t ∗ = argmax ⁡ U k l a Sim ⁡ ( F C L I P t ( U k l a ) , F C L I P v ( B t ∗ ) ) U_{t}^{*} = \underset{U_{k}^{la}}{\operatorname{argmax}} \operatorname{Sim}(F_{CLIP}^{t}(U_{k}^{la}), F_{CLIP}^{v}(B_{t}^{*})) Ut=UklaargmaxSim(FCLIPt(Ukla),FCLIPv(Bt))
  • 其中 F C L I P t F_{CLIP}^{t} FCLIPt F C L I P v F_{CLIP}^{v} FCLIPv 分别表示CLIP的文本编码器和图像编码器。

领域内训练

  • 论文中采用了两种领域内训练方案:预训练和微调。预训练的目标是定义三个导航推理任务的损失函数:
    L F I = − U ∗ log ⁡ ( p L L M ( U ∣ I , H , D ) ) \mathcal{L}_{FI} = -U^{*} \log(p_{LLM}(U|I,H,D)) LFI=Ulog(pLLM(UI,H,D))
    L V I F = − V ∗ log ⁡ ( p L L M ( V ∣ I , H , D ) ) \mathcal{L}_{VIF} = -V^{*} \log(p_{LLM}(V|I,H,D)) LVIF=Vlog(pLLM(VI,H,D))
    L A P = − a ∗ log ⁡ ( p L L M ( a ∣ I , H , D ) ) \mathcal{L}_{AP} = -a^{*} \log(p_{LLM}(a|I,H,D)) LAP=alog(pLLM(aI,H,D))
  • 预训练的总损失为:
    L p = L F I + L V I F + L A P \mathcal{L}_{p} = \mathcal{L}_{FI} + \mathcal{L}_{VIF} + \mathcal{L}_{AP} Lp=LFI+LVIF+LAP
  • 微调的目标是优化完整的导航思维链的损失函数:
    L f = − ∑ t C o T t ∗ log ⁡ ( p L L M ( C o T t ∣ I , H t , D t ) ) \mathcal{L}_{f} = -\sum_{t} CoT_{t}^{*} \log(p_{LLM}(CoT_{t} | I, H_{t}, D_{t})) Lf=tCoTtlog(pLLM(CoTtI,Ht,Dt))

实验

实验设置

数据集

NavCoT在四个典型的VLN基准数据集上进行评估:

  • R2R:包含90个真实世界的室内环境,共有7189条轨迹,每条轨迹对应三个细粒度指令。
  • RxR:包含比R2R更复杂的指令和轨迹。由于CLIP预训练在英语数据上,使用RxR的英语子集(包括en-IN和en-US)进行验证。
  • REVERIE:用高层次指令替换R2R中的细粒度指令。
  • R4R:将R2R中相邻的尾到头轨迹连接起来,形成更长的指令和轨迹。
评估指标

在R2R和REVERIE上使用的标准评估指标包括:

  • 轨迹长度(TL):智能体导航路径的平均长度。
  • 导航误差(NE):智能体目的地与目标视角之间的平均距离。
  • 成功率(SR):智能体在目标点三米内停止的成功率。
  • 路径长度加权成功率(SPL):通过最短路径与预测路径长度的比例归一化的成功率。
  • Oracle成功率(OSR):路径中包含目标位置可见视点的成功率。

对于R4R和RxR,还使用了与指令遵循相关的评估指标:

  • 覆盖率加权长度得分(CLS)
  • 归一化动态时间规整(nDTW)
  • 动态时间规整成功率(SDTW)
实现细节
  • 训练了两个不同大小的LLaMA模型:LLaMA-Adapter(7B)和LLaMA 2(7B)。
  • 使用4个V100 GPU进行训练,批量大小为8,总训练时间约为10小时。
  • 推理在单个V100 GPU上进行。
  • 使用AdamW优化器,学习率为0.001,权重衰减为0.02。
  • 在验证未见过的子集上快速评估,使用90条指令-轨迹对。

实验结果

与现有方法的比较

  • 上表展示了NavCoT与不同基线方法在R2R上的比较结果。
  • NavCoT结合LLaMA 2显著优于基于GPT-4的方法NavGPT,特别是在SPL上提高了4.17%。
  • 通过添加少量增强数据,性能可以进一步提高,表明通过简单的数据增强可以提升NavCoT的性能。
消融研究

  • 对NavCoT的各个组件进行了广泛的消融实验,包括训练设置、推理任务、导航历史等。
  • 结果表明,NavCoT在所有训练设置中都优于直接动作预测(DAP)变体,突出了显式解耦推理的力量。
  • 基于训练的设置显著优于零样本方法,表明参数高效的领域内训练策略的有效性。
  • 预训练和微调结合可以鼓励LLM选择与目标位置相关的动作。
其他数据集上的泛化

  • 在RxR和REVERIE上验证了NavCoT的泛化能力。
  • NavCoT在CLS和SDTW等指标上显著优于直接动作预测(DAP),表明其不仅提高了导航精度,还增强了指令遵循能力。
低资源实验

  • 在R2R和R4R上进行低资源实验,验证NavCoT在小训练数据下的表现。
  • 结果显示,NavCoT在低资源设置下仍然优于DAP,表明其在资源有限情况下的良好泛化能力。

可视化

  • 提供了想象真实值(GT)的可视化示例,展示了LLM和CLIP在收集过程中确保想象的准确性。

  • 展示了NavCoT的动作决策可视化,表明其生成合理的导航推理来指导动作决策。

  • 提供了一些特殊情况下的泛化示例,展示了NavCoT在特殊情况下的正确导航决策能力。

  • 分析了一些失败案例,指出了NavCoT在某些情况下可能出现的错误类型。

总结

  • 论文提出了NavCoT,通过参数高效的领域内训练使LLMs能够进行自我引导的导航推理,从而显著提高了动作决策的准确性和可解释性。
  • 实验结果表明,NavCoT在多个VLN数据集上优于高成本LLMs和直接动作预测变体。
  • 未来的研究方向包括将NavCoT引入更强大的大视觉语言模型,以进一步提高导航性能。


http://www.kler.cn/a/592232.html

相关文章:

  • Python列表1
  • hexo+git pages搭建网站避坑QAQ
  • 基于BCLinux制作Apache HTTPD 2.4.63 的RPM安装包
  • JAVA-多线程join()等待一个线程
  • 精细护理:为进行性核上性麻痹患者筑牢生活防线
  • stm32第七天震动传感器
  • NLP高频面试题(四)——BN和LN的区别与联系,为什么attention要用LN
  • 五、AIGC大模型_09手动实现ReAct_Agent
  • linux /bin/bash丢失修复
  • Mac:Maven 下载+安装+环境配置(详细讲解)
  • 动态规划合集——动态规划基本原理
  • 蓝桥杯 - 中等 - 新手引导
  • React初学分享 事件绑定 组价通信 useState useEffect
  • Django 中@login_required 配置详解
  • 【深度学习】多目标融合算法(五):定制门控网络CGC(Customized Gate Control)
  • OpenBMC:BmcWeb添加路由4 设置method
  • MySQL 进阶学习文档
  • gralloc1_perform具体在干什么
  • 大语言模型的多垂类快速评估与 A/B 测试
  • 云原生服务网格:微服务通讯的量子纠缠革命