【SLAM文献阅读】基于概率模型的视觉SLAM动态检测与数据关联方法
A dynamic detection and data association method based on probabilistic models for visual SLAM
《基于概率模型的视觉SLAM动态检测与数据关联方法》 2024
摘要:
通常,静态特征采用多视图几何来估计相机姿态和重建环境地图。因此,动态特征检测和数据关联成为动态VSLAM中的关键问题。为了解决这些问题,我们提出了一种创新的基于概率的方法,该方法将实例分割和非参数Kolmogorov-Smirnov检验方法相结合,以检测物体上的特征分布。此外,本文提出了一种基于贝叶斯模型的数据关联算法,该算法综合利用了特征点的描述符及其空间信息。在KITTI公共数据集和Oxford Multi-motion数据集上的实验验证了该方法的有效性。
Introduction:
以往的方法大多基于静态假设,运动物体在视觉SLAM的多视图几何中引入误差。当相机和物体都处于运动状态时,准确区分动态特征和与静态特征进行精确的数据关联是两个主要问题。
问题一、区分静态和动态特征
以往方法:检测动态特征,通过剔除或者跟踪动态部分进行相机位姿估计。
存在问题:在识别动态物体时,目标检测和语义分割基于人类先验知识,潜在的动态对象可能被错误地识别为动态对象。
以往方法:光流法识别动态物体
存在问题:光流法用于相机静止,目标运动的物体跟踪。在动态SLAM中,相机和目标都在运动,当它们运动方向相同时,仅使用光流法区分动态物体的运动和相机运动变得困难。
问题二、数据关联
以往方法:提取ORB特征的描述符,通过暴力匹配的方式进行数据关联。
存在问题:图像特征易受光照变化和图像伪影的影响。
以往解决方案:VDO-SLAM利用光流进行数据关联,将前一帧图像特征加上光流的偏移量作为当前帧的特征点。
存在问题:图像中的二维光流存在估计误差,限制了位姿估计精度。
本文针对问题一:
为了识别动态对象,我们使用高斯模型和非参数 Kolmogorov-Smirnov (KS) 检验来区分动态特征。我们还向静态特征添加潜在的动态点,以增加用于估计相机姿态的特征点的数量。
本文针对问题二:
在数据关联方面,提出了一种基于贝叶斯模型的特征匹配算法,该算法同时使用特征点的描述符及其空间信息来估计数据关联。
Related work
动态物体处理:
剔除动态物体的方法:
DS-SLAM:利用语义分割网络Seg-Net检测动态物体并剔除。
Fusion + + [ 17 ]和MaskFusion [ 18 ] : 利用MaskRCNN [ 19 ]对动态对象进行精细的实例分割。
ClusterVO[ 20 ]:通过结合语义和空间运动来对动态特征进行聚类。
Dyna-SLAM [ 21 ]:结合了多视图几何和实例分割[ 19 ]来处理动态物体。
RS - SLAM [ 24 ]:利用语义分割模型进行动态物体识别,并基于贝叶斯更新利用上下文信息细化分割结果。
存在问题:
剔除的方式不能充分利用场景信息。特别是当动态对象占据大部分图像视图时,可用于计算摄像机姿势的静态特征太少,从而导致系统崩溃。
对动态对象运动进行建模的方法:
CubeSLAM [25]:使用YOLO [14]探测器和物体的三维立方体结构进行动态物体跟踪。通过利用动态对象的运动作为约束,进一步优化了摄像机姿势,而不是删除动态特征。
Dyna-SLAM II [3] :提出了一种动态目标的特征匹配方法,共同优化动态目标、相机和特征点。Wang等[26]提出了一种称为Dym-SLAM的4-D动态SLAM系统。
TwistSLAM[27]: 利用了动态物体和静态物体运动的物理约束。随后,他们又提出了TwistSLAM + + [ 28 ],加入了LiDAR数据来增强对动态物体的检测能力。
VDO-SLAM [9] :在对动态对象的运动进行建模时,使用实例分割和场景流来检测动态特征。
存在问题:
然而,场景流量的估计是基于摄像机的姿态,其准确性也受到限制。
数据关联:
动态 SLAM 中估计摄像机姿态的方法通常使用与静态 SLAM 相同的处理。
这部分讨论了特征匹配。
总体架构
动态SLAM的概率模型:
对于输入图像序列首先提取ORB特征。
使用实例分割网络Mask R-CNN区分前景(也就是动态物体)和背景特征 。
通过PWC-Net获取稠密光流的结果,通过立体深度估计的方法计算图像的深度信息,然后针对背景和前景分别构建两帧之间的光流值和深度误差值的高斯模型。
通过非参数统计方法KS检验对静态特征进行筛选,用于估计相机位姿,动态特征用于估计物体位姿。
在数据关联中,我们将描述符的汉明距离和特征点之间的欧几里得距离分别作为先验概率和似然概率。我们构建了一个贝叶斯模型,并通过最大化后验概率来估计特征匹配。(这个创新点似乎并没有说是为了适用于包含动态物体的场景而提出的,仅仅是为了改善特征匹配问题吗)