当前位置: 首页 > article >正文

开卷可扩展自动驾驶(OpenDriveLab)

一种通用的视觉点云预测预训练方法

开卷可扩展自动驾驶(OpenDriveLab)

自动驾驶新方向?ViDAR:开卷可扩展自动驾驶(OpenDriveLab)-CSDN博客

创新点

在这项工作中,本文探索了专为端到端视觉自动驾驶应用量身定制的预训练方法,不仅包括感知,还包括预测和规划。本文构建了一个新的 pretext tasks ——视觉点云预测(见图2),以充分利用原始图像-激光雷达序列背后的语义、三维几何和时间动态信息,并考虑到可扩展性(being scalable)。它从历史视觉图像中预测未来的点云。

视觉点云预测的主要理念在于对语义、三维结构和时间建模的同时监督。通过迫使模型从历史数据预测未来,它监督了场景流和物体运动的提取,这对于时间建模和未来估计至关重要。同时,它涉及从图像重建点云,这监督了多视角几何和语义建模。因此,来自视觉点云预测的特征嵌入了几何和时间提示(geometric and temporal hints)的信息,这对于同时进行感知、跟踪和规划都是有益的。

为此,本文提出了 ViDAR,一种用于预训练的通用视觉点云预测方法(a general visual point cloud forecasting approach)(见图2)。ViDAR 包括三个部分:历史编码器(History Encoder)、潜在渲染操作符(Latent Rendering operator)和未来解码器(Future Decoder)。历史编码器是预训练的目标结构。它可以是任何视觉BEV编码器,用于将视觉序列嵌入到BEV空间。这些BEV特征被送入潜在渲染操作符。潜在渲染在使 ViDAR 提升下游性能方面发挥着至关重要的作用。它解决了 射线形状BEV特征问题(ray-shaped BEV features issue),建模三维几何潜在空间,并连接编码器与解码器。未来解码器是一个自回归 transformer ,它利用历史BEV特征迭代地预测任意时间戳的未来点云。


http://www.kler.cn/a/328499.html

相关文章:

  • Chrome 浏览器 131 版本新特性
  • 闫氏DP分析法应用
  • tcp 超时计时器
  • 【C++动态规划】3148. 矩阵中的最大得分|1819
  • WebRTC视频 02 - 视频采集类 VideoCaptureModule
  • Ubuntu 的 ROS 操作系统 turtlebot3 导航仿真
  • express,MySQL 实现登录接口,如果用户未注册直接注册
  • 【Python】Uvicorn:Python 异步 ASGI 服务器详解
  • vue3 环境配置vue-i8n国际化
  • Linux高级IO之poll与epoll
  • 基于Springboot+微信小程序 的高校社团管理小程序(含源码+数据库+lw)
  • TypeScript 算法手册【插入排序】
  • 搜维尔科技:SenseGlove DK1触觉反馈手套,远程操作机器人任务,保证你工作时的安全
  • js无法获取执行的线程号(Thread ID)
  • 【Golang】关于Go语言中的包
  • 超分服务的分量保存
  • Gateway和VirtualService
  • 代码随想录算法训练营day44
  • PostgreSQL 数据库语法学习:深入理解 `JOIN` 操作
  • 【AI基础】pytorch lightning 基础学习
  • 【JavaEE初阶】深入解析死锁的产生和避免以及内存不可见问题
  • 药品识别与分类系统源码分享
  • 【Transformer】长距离依赖
  • 微信小程序中的 `<block>` 元素:高效渲染与结构清晰的利器
  • 初识C语言(五)
  • 鸿蒙开发(NEXT/API 12)【硬件(传感器开发)】传感器服务