当前位置: 首页 > article >正文

视觉定位VPS的现状与未来

视觉定位VPS的现状与未来

一、前言

VPS全称为Visual Positioning Service/System,即视觉定位服务/系统。手机端(移动时代)的VPS首次出现时间节点为2019年,这一年Google 发布了其产品“Google Maps AR(测试版)”,该产品使用 VPS技术通过相机图像在户外可以实现任意视角的定位与定向。
同样是作为6dof解算的方案,那么VPS、SfM、SLAM还有VO的关系如下图所示:

之前在《VPS和GPS、SLAM的爱恨情仇》这篇文章中我已经对三者的区别与联系做了阐述,这里再强调一点其是VPS作为全局定位手段,相对于其他三个不会产生误差累积。

二、空间计算的核心

提到VPS自然要说到之前的热词“空间计算”,这个时候很多人可能存在疑问:为什么使用 VPS 而不是 GPS、信标或 QR 码等其他系统?有以下主要原则指导我们做出这样的选择:
(1)室内定位精度
(2)低成本
(3)多种设备可用性
GPS:是一种低精度空间定位解决方案,是以米为单位的误差;同时在城市区域由于高楼的出现容易出现多路径效应,在室内是不可用状态,VPS相比于GPS的定性表现如下:

磁场:是一种以中等精度进行空间定位的解决方案,因为它利用目标位置的磁场(类似于 VPS 对视野的作用)。它利用边缘计算,但要求设备配备磁罗盘(并非所有设备都配备)。它需要情境化/校准。对于所有空间计算用例来说,它不够精确。
Wifi:是一种中等精度的空间定位解决方案,与 GPS 相反,Wifi 不是全球分布的,因此系统只有在存在现有 Wifi 热点的情况下才能工作,需要校准。它对于所有空间计算用例来说都不够精确,并且对 WiFi 网络基础设施的更新非常敏感。
信标:是一种中等精度的空间定位解决方案,利用设备的蓝牙/Wifi 硬件。缺点是,与 GPS 和 VPS 相比,它成本高昂(设备成本 + 安装成本),并且需要维护(电源)和情境化/校准。对于所有空间计算用例来说,它不够精确。
QR 码/视觉标记:这是 AR 中最古老的技术之一,是高精度空间定位的解决方案。但是marker 的张贴场景容易受限,且不具备沉浸感。

三、VPS现有方法论

视觉定位技术可以分为基于地图的和基于非地图的方法,大致可以分为以下几种方案:
(1)基于场景结构(Structure-based)
(2)基于场景结构和图像检索(Structure-based with image retrieval)
(3)场景点回归(Scene point regression)
(4)绝对位姿回归(Absolute pose regression)
(5)位姿内插(Pose interpolation)
(6)相对位姿估计(Relative pose estimation)
(1)(2)(3)属于基于地图的重定位技术,(4)(5)(6)属于基于非地图的;而基于非地图的重定位方法,虽快速轻量但是精度难以满足需求,只能提供粗略的定位。方法(3)采用DNN网络可以直接建立2D像素点和3D点的关联,从而计算查询图像的位姿,该方法类似于基于场景结构的方法,但是该方法在小场景可以具备较高的精度,对于大场景地图的构建,鲁棒性和精度有待提高。

四、国内外持有VPS技术的公司

(1)国内
i.视辰
目前国内创业公司里面算是做的比较好的
采集设备:gopro max
终端设备:支持手机和眼镜
ii.华为
华为VPS SOP如下图所示:

注:来源华为云地图服务产品介绍

iii.商汤
OpenXRLab pipeline如下:

openxrlab 2022年开源最齐全XR平台,给高校和从业人员奠定了基石。
iv.易现
设备:支持手机和全景设备构建地图
v.悉见
已亡
vi.wayz
采集设备:自研设备激光+5个fisheye 、手机、全景相机
终端设备:支持手机和眼镜
并发:qps 单机可达到20
vii. Neogoma

提供AR SDK,目前国内最流畅、上手快的AR一站式平台,支持云端建图,网页端摆放资源模型。(已停摆)
这里只列出比较典型的几家公司,当然还有很多公司GPS+ARkit来偷换概念。
(2)国外
国外的公司基本都会公开自己的技术pipeline,不会藏着掖着!
i. MAXST
pipeline 如下:

采集设备:消费级全景
建图算法:sfm + mvs
maxst 3D 空间地图图示如下,除了AR内容还会叠在POI还有路网信息来与现实世界进行绑定。

ii.immersal
同Neogoma 一样,具备完整的AR开发平台,对于AR新用户或AR概念体验者来说操作简单。
采集设备支持:手机 、 BLK2GO 、消费级全景

全景设备的处理依靠商业软件photoscan的处理,本质还是sfm去构建定位地图。
iii.Blue Vision

建图算法:分布式sfm ,依托于开源openmvg框架,单次定位返回时间1s内。
iv.multiset

采集设备:手机
建图算法:使用slam方案 同3D scanner app一样,依托于ARkit/ARcore(ARKit 和 ARCore 主要用于室内小范围应用)但是 在ARKit 的基础上叠加了地图合并功能,使得多个小范围的建图数据可以拼接成更大规模的地图,从而支持更广阔的空间映射。
定位精度:角度误差1度,位置误差10cm
主要商业落地场景:工业AR,将设备上的实时信息和物联网数据叠加到实景中。这种实时可视化功能能够提升故障排查效率,减少停机时间,并通过直观呈现关键信息来确保安全。

这里再提一点是multiset同immersal、Neogoma 一样,都是一站式AR操作平台,非常适合新手体验AR效果。
v. Over the Reality

一家非常有意思的公司,侧重于建图,其采用智能手机利用众包形式构建3D地图。显而易见,VPS依赖于3D地图,那么最大的问题就会出现:如何构建这些地图。因为世界很大,所以就会有两个问题:
①如何鼓励人们参与地图绘制
②去哪里绘制地图
那么over the reality 为了解决这一问题,采用奖励机制来实现众包,主要分为两个方面:其一,用户下载APP,扫描任何区域进行构图,如果OVER对用户的地图感兴趣,可以购买用户的地图;其二,over实施指定区域建图计划,比如一个历史意义的spot ,如果用户参与计划,那么相比于自己任意地点扫图会获取更多的报酬。
over拥有了地图后,可以做什么?地图作为数字资产,具备真实尺度的3D结构信息存在两方面的价值主张,一方面当摄象头再次对着熟悉的环境时候,就会知道所处的空间位置,即VPS;另一方面可以创建该位置的数字孪生,可以远程的操控,如云景点。
vi.Sturfee

基于高分辨率卫星影像构建mesh,然后基于mesh的VPS。定位效率大约需要3秒钟,无法在室内定位,这里提Sturfee主要是其构建地图的方式与其他同行截然不同。
vii.Lightship(Niantic)

同OVER一样,用户上传自己的采集的地图,打开APP会根据gps位置看到自己周围已有的点位,如果点位被激活就可以测试VPS,但是与OVER不同的是不具备“奖励机制”,要想达到众包还是一件困难的事情。但是Niantic的技术还是非常强的,代表作有pokemon go、ACE和ACE0

五、vps的应用

(1)、low-cost UAV导航
常见的UAV导航会叠加众多传感器,造成成本高,功耗大的情况;那么低成本的UAV导航尤其是GPS-denied的case下,基于相机和低成本的IMU来实现UAV的导航。该方法可以在嵌入式处理器中非常紧密高效的运行,具体的技术手段是VIO+ VPS,其中VPS是利用相机图像与卫星图像来实现,如下图所示:

(2)AR application
这里简单阐述一下AR技术,AR是是一种将现实世界与虚拟世界无缝衔接的技术,那么VPS是AR技术中的核心算法,目前VPS也是广泛应用到AR行业。
根据上文三章节提到的现有的方法论,最实用的还是map-based方法,其工作原理分为两个部分offline + online ,即是离线建图和在线定位。根据四章节调研的结果可以看到,建图的手段可以分为slam和sfm方案,这里列出我们的建图和定位的pipeline:
建图pipeline:

定位pipeline:

那么AR的落地场景可以分为以下几类:

六、VPS现状与未来

VPS 技术目前位置仍然存在很多问题与挑战,还是从两个方面进行阐述:
建图层面存在的问题:
1、地图的更新、存储
场景变化是common的case,此时定位将会实效,必然需要对3D 结构进行update,然而地图更新本身就是一件困难的事情,需要变化检测、重建变化区域、变化区域的点和原有的点云合并等操作;那么此时就会有一个疑问,vps必须需要3D结构地图吗(这里指定几何传统方法)?更新难、存储难会让不少项目拒之门外,那么是否会有无图定位(不依赖3D点云)的方案,当然可以存在,如下pipeline:

2、建图的效率
如果是基于slam方案,效率这个问题可以忽略,但是slam方案的存在的问题就是不接受unordered 图像,因此在方案选择上需要根据自己的需求选择。然而sfm方案会随着图像的增加而增加,因此需要优化很多细节才能使用。

定位层面存在问题:
在定位方面分为粗定位和精定位,即图像检索VPR和6dof计算。
1、VPR
map-based 的定位精度很大程度上依赖检索的效果,要能应对不同时间、不同季节、不同源的数据,以及检索数量的多少才能达到精度和效率的trade-off。
2、6dof计算
VPR粗定位完成之后,下一步就是精定位(这里讨论map-based形式),也就是耳熟能详的PNP算法。虽然这一步原理上很简单且实现亦是不难,但是实际情况中如果有额外的约束,会更加的鲁棒。比如终端手机都会携带imu信息,这个时候PNP算法就可以简化,可以利用重力信息进行约束得到更优的结果。除此之外,如果终端是眼镜,就可以充分利用眼镜本身的几何结构-“双目”,那么vps就可以变成多帧定位,多帧定位的优越性主要是可以弥补单帧定位信息量的不足,某种程度上可以解决重复纹理、远距离的问题,在ETH LaMAR 这篇文章中也有过阐述。多帧VPS真实场景的数据定位的定量效果如下:

七、总结

AR是人机界面的未来,是我们用于信息和体验交互的主要渠道,我们的智能手机时代将被通过智能眼镜体验的增强版现实所取代。

http://www.kler.cn/a/545932.html

相关文章:

  • 华纳云:如何从服务器日志中发现僵尸进程?
  • unity 实时光为什么无法切换为烘焙光
  • html css js网页制作成品——HTML+CSS+js茉酸奶的茶网页设计(5页)附源码
  • 深度整理总结MySQL——Expalin指南(一)
  • OpenCV机器学习(3)期望最大化(Expectation-Maximization, EM)算法cv::ml::EM
  • 【C/C++算法】从浅到深学习--- 二分查找(图文兼备 + 源码详解)
  • QEMU参数与使用
  • 日语发音的节拍
  • 后台终端方法
  • Linux系统运行模式和链接
  • 大模型的未来已来
  • 【机器学习实战】kaggle背包价格预测(堆叠的实战用法)
  • 如何保持 mysql 和 redis 中数据的一致性?PegaDB 给出答案
  • 上课啦 | 2月17日软考高项【5月备考班】
  • MacOS使用PhpWebStudy搭建PHP开发环境
  • Express 中间件分类
  • 【Elasticsearch】监控与管理:集群健康检查
  • 双指针思想
  • 2.【BUUCTF】bestphp‘s revenge
  • RK3588开发板部署DeepSeek-R1-Distill-Qwen-1.5B的步骤及问题