当前位置：首页 > article >正文

BEVDet4D:多帧时序信息融合方法详解

article 2025/4/2 14:26:21

GitHub：GitHub - HuangJunJie2017/BEVDet: Official code base of the BEVDet series .

利用多帧时序信息可以显著改善时间有关的预测效果（速度等）具体方法如下：

Simplify the Velocity Learning Task(速度学习任务简化)

坐标系表示方法

按照 nuScenes [2] 的定义，我们用以下符号来表示不同的坐标系：

Og − XYZ：全局坐标系
Oe(T) − XYZ：自车坐标系（时间为 T）
Ot(T) − XYZ：目标坐标系（时间为 T）

如图 3 所示，我们构建了一个包含一辆移动中的自车和两辆目标车的虚拟场景。在全局坐标系中，一个目标车是静止的（即 Os − XYZ，标记为绿色），而另一个目标车是移动的（即 Om − XYZ，标记为蓝色）。相邻两帧（即帧 T−1 和帧 T）中的物体通过不同的透明度进行区分。物体的位置表示为 Px(t)，其中 x ∈ {g, e(T), e(T − 1)} 表示定义位置的坐标系，t ∈ {T, T − 1} 表示记录位置的时间。我们使用 Tdst_src 表示从源坐标系到目标坐标系的转换。

预测目标的平移而非速度

为了简化学习任务，我们选择预测相邻帧中目标的平移量，而不是直接预测目标的速度。这样，学习任务被简化为仅依赖于两帧之间的BEV特征差异，而不需要考虑时间因素。此外，我们还倾向于学习与自车运动无关的平移量，这进一步简化了任务，因为自车运动会使目标位置的平移分布更加复杂。

通过这种方式：

简化学习任务：去除时间因素，使目标平移量仅根据相邻帧之间的BEV特征差异来衡量。
减少复杂性：通过忽略自车运动的影响，避免了由于自车运动引入的额外复杂性。

具体例子：

由于自车运动，一个在全局坐标系中静止的物体（例如图3中的绿色框）会在自车坐标系中变成一个运动物体。具体来说，BEV特征的感受野在自车周围对称地定义。考虑相邻帧中由视图变换器生成的两个特征，由于自车运动，它们在全局坐标系中的感受野是不同的。给定一个静止物体，其在全局坐标系中的位置分别为（在相邻的两个帧中）。