当前位置：首页 > article >正文

TPAMI-2025 | 中山大学具身导航参数高效训练！NavCoT：通过解耦推理提升基于大模型的视觉语言导航

article 2025/3/20 6:59:22

作者：Bingqian Lin $^{1}$ , Yunshuang Nie $^{1}$ , Ziming Wei $^{1}$ , Jiaqi Chen $^{2}$ , Shikui Ma $^{3}$ , Jianhua Han $^{4}$ , Hang Xu $^{4}$ , Xiaojun Chang $^{5}$ , Xiaodan Liang $^{1}$
单位： $^{1}$ 中山大学， $^{2}$ 香港大学， $^{3}$ Dataa Robotics公司， $^{4}$ 华为诺亚方舟实验室， $^{5}$ 悉尼科技大学
论文标题：NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning
论文链接：https://arxiv.org/abs/2403.07376
代码链接：https://github.com/expectorlin/NavCoT

该问题的研究难点包括：

将LLMs应用于非语言的具身任务近年来受到越来越多的关注。LLMs大致分为两类：
- 一类是使用闭源LLMs（如GPT-4）进行离线处理，这可能面临可扩展性差和严重的领域差距问题；
- 另一类是引入较小的开源LLMs（如LLaMA系列），这些模型可以在本地部署和训练。
论文中采用了两种开源LLMs：LLaMA-Adapter和LLaMA 2。
- LLaMA-Adapter是一种轻量级的适配方法，通过较少的时间和参数对LLaMA 1进行微调。
- LLaMA 2是LLaMA 1的更新版本，具有更大的参数规模和更长的上下文长度。论文中使用了LLaMA 2的7B变体，并采用了一种偏置调整策略来实现参数高效的微调。

在每个时间步 $t$ ，首先使用视觉转文本系统将周围观察转换为语言描述。观察 $O_{t, n}$ 包含RGB图像 $B_{t, n}$ 和方向信息 $A_{t, n} = \{\psi_{t, n}, \theta_{t, n}\}$ ，其中 $\psi_{t, n}$ 和 $\theta_{t, n}$ 分别表示方向和仰角。
使用图像描述模型BLIP将视觉信息 $B_{t, n}$ 转换为描述 $D_{t, n}^{v}$ ：
$D_{t, n}^{v} = F_{v}(B_{t, n})$
将方向信息 $A_{t, n}$ 映射到六个基本方向的文本表示（如“左转”和“向上”），并将最终的方向信息表示为 $D_{t, n}^{a}$ 。每个观察的最终文本描述 $D_{t, n}$ 通过字符串连接获得：
$D_{t, n} = \operatorname{cat}(D_{t, n}^{a}, D_{t, n}^{v})$

LLM通过Prompt生成导航思维链，以指导导航行动预测。思维链包括三个中间推理步骤：未来想象（FI）、视觉信息过滤（VIF）和行动预测（AP）。
未来想象（FI）：LLM根据指令和导航进度生成对下一个观察的想象。想象 $U_t$ 的输出格式为：
$\text{Imagination: } U_{t}$
视觉信息过滤（VIF）：LLM选择与想象最匹配的候选观察。过滤后的观察 $V_t$ 的输出格式为：
$\text{Filtered observation: } V_{t} \text{ matches the imagination}$
行动预测（AP）：LLM根据FI和VIF的推理进行最终的行动预测。行动 $a_t$ 的输出格式为：
$\text{Action: } a_{t}$

为了实现零样本行动决策，作者基于现有的VLN数据收集导航思维链的真实标签。通过使用CLIP模型计算指令中提到的地标与观察之间的相似性，来获取地标的真实想象标签 $U_{t}^{*}$ ：
$U_{t}^{*} = \underset{U_{k}^{la}}{\operatorname{argmax}} \operatorname{Sim}(F_{CLIP}^{t}(U_{k}^{la}), F_{CLIP}^{v}(B_{t}^{*}))$
其中 $F_{CLIP}^{t}$ 和 $F_{CLIP}^{v}$ 分别表示CLIP的文本编码器和图像编码器。

论文中采用了两种领域内训练方案：预训练和微调。预训练的目标是定义三个导航推理任务的损失函数：
$\mathcal{L}_{FI} = -U^{*} \log(p_{LLM}(U|I,H,D))$
$\mathcal{L}_{VIF} = -V^{*} \log(p_{LLM}(V|I,H,D))$
$\mathcal{L}_{AP} = -a^{*} \log(p_{LLM}(a|I,H,D))$
预训练的总损失为：
$\mathcal{L}_{p} = \mathcal{L}_{FI} + \mathcal{L}_{VIF} + \mathcal{L}_{AP}$
微调的目标是优化完整的导航思维链的损失函数：
$\mathcal{L}_{f} = -\sum_{t} CoT_{t}^{*} \log(p_{LLM}(CoT_{t} | I, H_{t}, D_{t}))$