当前位置: 首页 > article >正文

自动驾驶之BEVDet

在这里插入图片描述
BEVDet 主要分为4个模块

1、图像视图编码器(Image-view Encoder):

就是一个图像特征提取的网络,由主干网络backbone + 颈部网络neck构成。经典主干网络比如resnet, SwinTransformer等。neck 有== FPN==, PAFPN 等。
例如输入环视图像,记作Tensor([bs, N, 3, H, W]),提取多尺度特征;其中bs = batch size,N = 环视图像的个数,H, W = 输入图像的宽和高。
经过编码器后输出特征为多尺度融合后的特征为:Tensor([bs,N,512,H / 16,W / 16])

2、视图变换器(View Transformer):

**视图转换是BEV的核心。目的就是如何从图像空间中提取BEV空间所需要的特征。**假如某个BEV格子所对应空间有个锥桶,那么这个格子里填充的一定是用来描述这个锥桶的特征值,而不是远方天空或红绿灯的特征值。主要有==前向投影(推)(深度分布)==和 ==反向投影(拉)(query)==两种方式。
BEVDet 采用类似LSS深度分布的方法,将带有深度的图像点云根据内外参数映射到车身坐标系下,最后沿着Z方向进行池化,生成BEV特征。作者将深度预测的默认范围扩展到 [1,60] 米,间隔为1.25 × r,其中r表示输出特征的分辨率。

3、BEV编码器(BEV Encoder):

在BEV空间下进行特征提取。类似图像空间的特征提取操作。进一步精炼出关键信息,特别是在BEV空间下定义的信息。比如大小、方向和速度,因为这些信息都是在BEV空间中定义的。BEV编码器的主干网络采用ResNet,颈部网络采用FPN-LSS。

4、检测头(Task-specific Head):*

在BEV空间输出特征图上,直接采用单阶段CenterPoint中的3D目标检测头,用于识别行人、车辆等障碍物的位置、大小、方向和速度等信息。


http://www.kler.cn/a/563362.html

相关文章:

  • 编写Redis开机自启动脚本
  • 小米电机CyberGear STM32HAL 使用指南
  • day7作业
  • DeepSeek推出DeepEP:首个开源EP通信库,让MoE模型训练与推理起飞!
  • python的Tkinter小程序上传Excel并下载Text
  • 虚拟机 | Ubuntu 安装流程以及界面太小问题解决
  • QT5框架中对sqlquery.exec(“SQL语句“)的返回值存在误解
  • 电商API接口设计:商品、订单与支付模块的微服务拆分实践
  • YOLOv12 ——基于卷积神经网络的快速推理速度与注意力机制带来的增强性能结合
  • excel单、双字节字符转换函数(中英文输入法符号转换)
  • 【网络】TCP vs UDP详解( 含python代码实现)
  • 从零到一:实现 Changesets 自动化发版全流程
  • PHP女程序猿学习Java的Day-10
  • Matplotlib 绘图标记
  • Deepseek+RAGFLOW部署教程
  • 使用PHP接入纯真IP库:实现IP地址地理位置查询
  • Flink JobManager不稳定的典型情景
  • Unity基础——资源导出分享为Unity Package
  • 设计模式之策略模式(Strategy Pattern)
  • LeetCode 热题 100 子串章节