当前位置：首页 > article >正文

视觉定位VPS的现状与未来

article 2025/2/21 7:36:40

视觉定位VPS的现状与未来

一、前言

VPS全称为Visual Positioning Service/System，即视觉定位服务/系统。手机端(移动时代）的VPS首次出现时间节点为2019年，这一年Google 发布了其产品“Google Maps AR（测试版）”，该产品使用 VPS技术通过相机图像在户外可以实现任意视角的定位与定向。

同样是作为6dof解算的方案，那么VPS、SfM、SLAM还有VO的关系如下图所示：

之前在《VPS和GPS、SLAM的爱恨情仇》这篇文章中我已经对三者的区别与联系做了阐述，这里再强调一点其是VPS作为全局定位手段，相对于其他三个不会产生误差累积。

二、空间计算的核心

提到VPS自然要说到之前的热词“空间计算”，这个时候很多人可能存在疑问：为什么使用 VPS 而不是 GPS、信标或 QR 码等其他系统？有以下主要原则指导我们做出这样的选择：

(1)室内定位精度
(2)低成本
(3)多种设备可用性

GPS：是一种低精度空间定位解决方案，是以米为单位的误差；同时在城市区域由于高楼的出现容易出现多路径效应，在室内是不可用状态,VPS相比于GPS的定性表现如下：

磁场：是一种以中等精度进行空间定位的解决方案，因为它利用目标位置的磁场（类似于 VPS 对视野的作用）。它利用边缘计算，但要求设备配备磁罗盘（并非所有设备都配备）。它需要情境化/校准。对于所有空间计算用例来说，它不够精确。

Wifi：是一种中等精度的空间定位解决方案，与 GPS 相反，Wifi 不是全球分布的，因此系统只有在存在现有 Wifi 热点的情况下才能工作，需要校准。它对于所有空间计算用例来说都不够精确，并且对 WiFi 网络基础设施的更新非常敏感。

信标：是一种中等精度的空间定位解决方案，利用设备的蓝牙/Wifi 硬件。缺点是，与 GPS 和 VPS 相比，它成本高昂（设备成本 + 安装成本），并且需要维护（电源）和情境化/校准。对于所有空间计算用例来说，它不够精确。

QR 码/视觉标记：这是 AR 中最古老的技术之一，是高精度空间定位的解决方案。但是marker 的张贴场景容易受限，且不具备沉浸感。

三、VPS现有方法论

视觉定位技术可以分为基于地图的和基于非地图的方法，大致可以分为以下几种方案：

(1)基于场景结构(Structure-based)
(2)基于场景结构和图像检索(Structure-based with image retrieval)
(3)场景点回归(Scene point regression)
(4)绝对位姿回归(Absolute pose regression)
(5)位姿内插(Pose interpolation)
(6)相对位姿估计(Relative pose estimation)

(1)(2)(3)属于基于地图的重定位技术，(4)(5)(6)属于基于非地图的；而基于非地图的重定位方法，虽快速轻量但是精度难以满足需求，只能提供粗略的定位。方法(3)采用DNN网络可以直接建立2D像素点和3D点的关联，从而计算查询图像的位姿，该方法类似于基于场景结构的方法，但是该方法在小场景可以具备较高的精度，对于大场景地图的构建，鲁棒性和精度有待提高。

四、国内外持有VPS技术的公司

(1)国内

i.视辰

目前国内创业公司里面算是做的比较好的

采集设备：gopro max
终端设备：支持手机和眼镜

ii.华为

华为VPS SOP如下图所示：

注：来源华为云地图服务产品介绍

iii.商汤

OpenXRLab pipeline如下:

openxrlab 2022年开源最齐全XR平台，给高校和从业人员奠定了基石。

iv.易现

设备：支持手机和全景设备构建地图

v.悉见

已亡

vi.wayz

采集设备：自研设备激光+5个fisheye 、手机、全景相机

终端设备：支持手机和眼镜

并发：qps 单机可达到20

vii. Neogoma

提供AR SDK，目前国内最流畅、上手快的AR一站式平台，支持云端建图，网页端摆放资源模型。(已停摆）

这里只列出比较典型的几家公司，当然还有很多公司GPS+ARkit来偷换概念。

(2)国外

国外的公司基本都会公开自己的技术pipeline,不会藏着掖着！

i. MAXST

pipeline 如下：

采集设备：消费级全景
建图算法：sfm + mvs

maxst 3D 空间地图图示如下，除了AR内容还会叠在POI还有路网信息来与现实世界进行绑定。

ii.immersal

同Neogoma 一样，具备完整的AR开发平台，对于AR新用户或AR概念体验者来说操作简单。

采集设备支持：手机、 BLK2GO 、消费级全景

全景设备的处理依靠商业软件photoscan的处理，本质还是sfm去构建定位地图。

iii.Blue Vision

建图算法：分布式sfm ，依托于开源openmvg框架，单次定位返回时间1s内。

iv.multiset

采集设备：手机

建图算法：使用slam方案同3D scanner app一样,依托于ARkit/ARcore(ARKit 和 ARCore 主要用于室内小范围应用)但是在ARKit 的基础上叠加了地图合并功能，使得多个小范围的建图数据可以拼接成更大规模的地图，从而支持更广阔的空间映射。

定位精度：角度误差1度，位置误差10cm

主要商业落地场景：工业AR,将设备上的实时信息和物联网数据叠加到实景中。这种实时可视化功能能够提升故障排查效率，减少停机时间，并通过直观呈现关键信息来确保安全。

这里再提一点是multiset同immersal、Neogoma 一样，都是一站式AR操作平台，非常适合新手体验AR效果。

v. Over the Reality

一家非常有意思的公司，侧重于建图，其采用智能手机利用众包形式构建3D地图。显而易见，VPS依赖于3D地图，那么最大的问题就会出现：如何构建这些地图。因为世界很大，所以就会有两个问题：

①如何鼓励人们参与地图绘制
②去哪里绘制地图

那么over the reality 为了解决这一问题，采用奖励机制来实现众包，主要分为两个方面：其一，用户下载APP，扫描任何区域进行构图，如果OVER对用户的地图感兴趣，可以购买用户的地图；其二，over实施指定区域建图计划，比如一个历史意义的spot ,如果用户参与计划，那么相比于自己任意地点扫图会获取更多的报酬。

over拥有了地图后，可以做什么？地图作为数字资产，具备真实尺度的3D结构信息存在两方面的价值主张，一方面当摄象头再次对着熟悉的环境时候，就会知道所处的空间位置，即VPS；另一方面可以创建该位置的数字孪生，可以远程的操控，如云景点。

vi.Sturfee

基于高分辨率卫星影像构建mesh,然后基于mesh的VPS。定位效率大约需要3秒钟，无法在室内定位，这里提Sturfee主要是其构建地图的方式与其他同行截然不同。

vii.Lightship(Niantic)

同OVER一样，用户上传自己的采集的地图，打开APP会根据gps位置看到自己周围已有的点位，如果点位被激活就可以测试VPS，但是与OVER不同的是不具备“奖励机制”，要想达到众包还是一件困难的事情。但是Niantic的技术还是非常强的，代表作有pokemon go、ACE和ACE0

五、vps的应用

(1)、low-cost UAV导航

常见的UAV导航会叠加众多传感器，造成成本高，功耗大的情况；那么低成本的UAV导航尤其是GPS-denied的case下，基于相机和低成本的IMU来实现UAV的导航。该方法可以在嵌入式处理器中非常紧密高效的运行，具体的技术手段是VIO+ VPS,其中VPS是利用相机图像与卫星图像来实现，如下图所示：

(2)AR application

这里简单阐述一下AR技术，AR是是一种将现实世界与虚拟世界无缝衔接的技术，那么VPS是AR技术中的核心算法，目前VPS也是广泛应用到AR行业。

根据上文三章节提到的现有的方法论，最实用的还是map-based方法,其工作原理分为两个部分offline + online ,即是离线建图和在线定位。根据四章节调研的结果可以看到，建图的手段可以分为slam和sfm方案,这里列出我们的建图和定位的pipeline:

建图pipeline:

定位pipeline:

那么AR的落地场景可以分为以下几类：

六、VPS现状与未来

VPS 技术目前位置仍然存在很多问题与挑战，还是从两个方面进行阐述：

建图层面存在的问题：

1、地图的更新、存储

场景变化是common的case,此时定位将会实效，必然需要对3D 结构进行update,然而地图更新本身就是一件困难的事情，需要变化检测、重建变化区域、变化区域的点和原有的点云合并等操作；那么此时就会有一个疑问，vps必须需要3D结构地图吗(这里指定几何传统方法)?更新难、存储难会让不少项目拒之门外，那么是否会有无图定位(不依赖3D点云)的方案,当然可以存在，如下pipeline:

2、建图的效率

如果是基于slam方案，效率这个问题可以忽略，但是slam方案的存在的问题就是不接受unordered 图像，因此在方案选择上需要根据自己的需求选择。然而sfm方案会随着图像的增加而增加，因此需要优化很多细节才能使用。

定位层面存在问题：

在定位方面分为粗定位和精定位，即图像检索VPR和6dof计算。

1、VPR

map-based 的定位精度很大程度上依赖检索的效果，要能应对不同时间、不同季节、不同源的数据，以及检索数量的多少才能达到精度和效率的trade-off。

2、6dof计算

VPR粗定位完成之后，下一步就是精定位(这里讨论map-based形式)，也就是耳熟能详的PNP算法。虽然这一步原理上很简单且实现亦是不难，但是实际情况中如果有额外的约束，会更加的鲁棒。比如终端手机都会携带imu信息，这个时候PNP算法就可以简化，可以利用重力信息进行约束得到更优的结果。除此之外，如果终端是眼镜，就可以充分利用眼镜本身的几何结构-“双目”，那么vps就可以变成多帧定位，多帧定位的优越性主要是可以弥补单帧定位信息量的不足，某种程度上可以解决重复纹理、远距离的问题，在ETH LaMAR 这篇文章中也有过阐述。多帧VPS真实场景的数据定位的定量效果如下：