当前位置：首页 > article >正文

arXiv-2024 | STMR：语义拓扑度量表示引导的大模型推理无人机视觉语言导航

article 2025/2/28 19:40:58

作者：Yunpeng Gao, Zhigang Wang, Linglin Jing, Dong Wang, Xuelong Li, Bin Zhao
单位：西北工业大学，上海人工智能实验室，中国电信人工智能研究院
原文链接：Aerial Vision-and-Language Navigation via Semantic-Topo-Metric Representation Guided LLM Reasoning (https://arxiv.org/pdf/2410.08500)

主要贡献

本文首次提出基于大语言模型（LLM）的端到端框架，用于空中视觉语言导航任务，无需训练和额外的低级动作规划器，便于集成。
通过分解自然语言指令为多个子目标，促进了逐步推理和导航。设计了一种独特的矩阵表示（STMR），包含拓扑、语义和度量信息，显著增强了LLM在户外环境中的空间感知推理能力。
在真实和模拟环境中进行了广泛的实验，证明了所提方法的有效性和鲁棒性，在AerialVLN-S数据集上实现了15.9%和12.5%的OSR提升。

研究背景

研究问题

论文主要解决的问题是无人机（UAV）通过自然语言指令和视觉线索在室外环境中进行导航的任务，即空中视觉语言导航（Aerial Vision-and-Language Navigation, Aerial VLN）。

研究难点

该问题的研究难点包括：

室外空中场景的空间关系复杂，现有方法多适用于室内或地面环境，对空中环境的适应性差；
现有方法在处理长距离和复杂空间关系时存在困难，容易误解指令或未能捕捉区域间的上下文关系。

相关工作

该问题的研究相关工作有：

早期的VLN方法使用序列到序列的LSTM进行低级或高级动作预测；
最近的方法利用大语言模型（LLMs）的推理和对话能力取得显著进展，但大多基于地面离散VLN设置，限制了UAV在现实世界中的自由移动空间。

研究方法

论文提出了一种基于大语言模型（LLM）的端到端零样本框架，用于解决空中VLN任务。

语义-拓扑-度量表示（STMR）

提出了一种矩阵表示方法，将指令相关的语义掩码投影到包含周围地标位置信息的俯视图中，并将其转换为包含距离度量的文本提示，输入到LLM中进行动作预测。

2D视觉感知

使用Grounding DINO和Tokenize Anything模型进行视觉感知，生成2D语义掩码和描述。

子目标驱动的俯视图

将语义掩码映射到3D空间，并转换为俯视图，记录无人机的位置作为航点。

矩阵表示

将俯视图处理成20x20的坐标网格，并应用语义最大池化，生成包含语义、拓扑和度量信息的矩阵表示。

LLM规划

设计了格式化的文本提示和动作空间，输出当前的想法和行动。提示包括任务描述、历史记录、地图和计划，利用Chain-of-Thought推理进行逐步规划和动作预测。

实验设计

数据集

使用AerialVLN-S数据集进行实验，该数据集模拟了真实世界的城市环境，包含超过870种不同的对象和各种场景，如市中心、工厂、公园和村庄。数据集包含8446条由经验丰富的UAV飞行员记录的飞行路径。

评估指标

使用导航误差（NE）、成功率（SR）和Oracle成功率（OSR）作为评估指标：

导航误差衡量UAV停止点与实际目的地之间的距离，
成功率衡量成功到达目的地的导航比例，
Oracle成功率考虑轨迹上任何接近目的地的点都视为成功。

实现细节

论文方法在模拟器（Airsim和UE4）和真实环境中验证。

模拟器在Intel i9第12代CPU和Nvidia RTX 4090 GPU的笔记本电脑上运行。

真实环境测试在一架搭载Intel RealSense D435i深度相机和NVIDIA Jetson Xavier NX的Q250无人机上进行。

结果与分析

模拟器定量结果

与几种其他方法相比，提出的方法在大多数指标上显著优于其他方法。例如，在valid-unseen上，提出的方法在OSR上提高了23.0%，在SR上提高了19.4%。

在模拟器中，最常见的失败原因是错误的规划或执行，包括对模糊指令的误解和视觉感知器的不准确性。

真实环境定量结果

在真实环境中收集的10个户外场景中，提出的方法成功导航，表现优于大多数基于LLM的VLN方法。

总结

论文提出了一种基于LLM的端到端框架，用于解决空中VLN任务，通过引入语义-拓扑-度量表示（STMR）显著增强了LLMs的空间推理能力。

实验结果表明，提出的方法在AerialVLN-S数据集上取得了最先进的成果，展示了其有效性。

http://www.kler.cn/a/452757.html

相关文章：

Vuex 的使用和原理详解

android 手工签名，（电子签名）

windows C#-编写复制构造函数

掌握Go语言：配置环境变量、深入理解GOPATH和GOROOT（1）

Java中String类型的字符串转换成JSON对象和JSON字符串

[STM32] 串口通信 (十一)

【落羽的落羽 C语言篇】数据存储简介

车载网关性能 --- 缓存buffer划分要求

109.【C语言】数据结构之求二叉树的高度

探究人工智能在教育领域的应用——以大语言模型为例

【JAVA高级篇教学】第五篇：OpenFeign 微服务调用注意事项

docker commit生成的镜像瘦身

参数名在不同的SpringBoot版本中，处理方案不同

深度学习笔记1：神经网络与模型训练过程

Java设计模式 —— 【结构型模式】享元模式（Flyweight Pattern）详解

C++-----------数组

Linux复习2——管理文件系统1

数据可视化期末复习-简答题

golang，多个proxy拉包的处理逻辑

MT6765核心板_MTK6765安卓核心板规格参数_联发科MTK模块开发