AI领域年度精彩报告┆国家优青马超教授:自动驾驶多模态场景理解与生成
本文为马超教授在2024年中国图象图形学学会青年科学家会议中所作的精彩报告《自动驾驶多模态场景理解与生成》的节选,经马老师同意后分享给读者,文中所有材料已经取得作者授权。
1.报告嘉宾介绍
马超,上海交通大学人工智能研究院教授,博士生导师。国家优青、上海市浦江人才、中国图象图形学学会优博。上海交通大学与加州大学默塞德分校联合培养博士。澳大利亚机器人视觉研究中心(阿德莱德大学)博士后研究员。主要研究计算机视觉问题。谷歌学术引用1万2千余次,连续入选爱思唯尔中国高被引学者(2020-2023)。任中国图象图形学学会优博俱乐部主席、青年工作委员会副秘书长。担任CVPR 2024/2025、ICLR 2025、ICCV 2025领域主席,IEEE Trans. on Multimedia (TMM)、Journal of Artificial Intelligence Research (JAIR)、Image and Vision Computing (IVC)编委。获中国图象图形学学会青年科学家奖、MMM 2024唯一最佳论文奖、华为技术合作领域优秀技术成果奖。
实验室主页:https://vision.sjtu.edu.cn/。
2.研究背景
自动驾驶是人工智能的一个非常重要的研究方向。要实现车辆的自动驾驶,必须要有足够的自动驾驶场景数据,才能训练出性能优越而全面的自动驾驶模型。然而,自动驾驶场景数据的采集,需要耗费大量的人力、物力和时间。此外,要实现自动驾驶还需要对场景做出正确而充分的理解,例如检测到场景中的道路、车道线、车辆、行人等关键目标,感知道路的交通状态,识别交通控制信号等。因此,通过先进的内容生成技术自动生成场景数据是自动驾驶的关键研究方向之一。此外,基于最新的视觉技术实现自动驾驶场景的理解也是当前的热门研究方向。
3.报告概览
马超教授在2024年中国图象图形学学会青年科学家会议中进行了《自动驾驶多模态场景理解与生成》的精彩报告。该报告的内容非常丰富和前沿。由于篇幅限制,本文对该报告进行了节选,将报告的精华内容分享给读者,方便读者了解自动驾驶领域的研究前沿。本文将按照如下方式进行组织。
(1)自动驾驶场景数据自动生成
1)跨模态场景重建方法Lightning-NeRF
2)跨模态视频编辑方法VidToMe
(2)自动驾驶场景理解
1)基于扩散模型的视觉目标跟踪方法DiffusionTrack
2)基于3D语义占用网格预测的目标感知方法OccGen
4.自动驾驶场景数据自动生成
(1)跨模态场景重建方法Lightning-NeRF
场景重建可以为自动驾驶提供丰富的3D场景数据。然而,自动驾驶场景重建面临一些常见的挑战。如下图所示,常见的挑战包括:自动驾驶场景是大尺度场景,包含的空间范围广阔;场景的结构复杂,重建难度大;光照变化大,对重建的细节要求高。
图1 自动驾驶场景重建面临的常见挑战
此外,训练和渲染的时间复杂度过高,也是存在的重要挑战之一。
基于大规模图像监督训练的NeRF可以在一定程度上解决上述若干挑战。但是,大规模图像监督训练的NeRF无法学习正确的场景几何特性。为此,马超教授团队提出了跨模态场景重建方法Lightning-NeRF。该方法的主要流程如下图所示。
图2 跨模态场景重建方法Lightning-NeRF的主要流程
该方法使用激光雷达点云训练SDF模型,同时使用图像监督联合训练NeRF模型。SDF模型提供的可靠的表面和不确定性测量,以便调整NeRF模型,从而实现更好的重建效果,如下视频所示。
视频1 Lightning-NeRF方法的重建效果及其对比
该方法的全文下载和代码下载链接如下:
全文下载地址:https://arxiv.org/abs/2403.05907。
代码下载地址:https://github.com/VISION-SJTU/Lightning-NeRF。
关于Lightning-NeRF方法的更多细节,读者可以查阅参考文献[1]。
(2)跨模态视频编辑方法VidToMe
如果想得到大风雪条件下的自动驾驶场景数据,该如何去获取?一个自然的想法是在大风雪天气下驾驶车辆去采集。然而,这样会面临大风雪天气何时会出现、交通安全如何保障等问题。一个合理的解决方案是通过视频编辑方法快速、安全、便捷地生成特定条件下的场景数据。如下视频所示,先输入正常天气条件下的驾驶视频,然后通过视频生成模型即可得到在大风雪条件下的驾驶视频。
视频2 自动驾驶特殊场景视频的生成
如果能够在不进行任何训练的条件下,直接使用预训练图像扩散模型对用户输入的视频进行重新生成,并且生成的视频风格可以由用户通过输入文字来指定,这将极大地降低自动驾驶场景数据采集的成本和节约数据采集所需的时间。例如,用户输入一段在赛场比赛的驾驶视频后,通过在软件界面中输入“生成大风雪条件下在山间道路行驶的视频”,从而很快就可以生成新的大风雪条件下的驾驶视频。关于更多具体的实例,读者可以查看如下演示视频。
视频3 VidToMe方法演示效果
为了实现上述目的,其关键点在于如何保持时序一致性,如下图所示。马超教授团队提出了一种名为VidToMe的视频编辑方法。该方法通过合并视频帧间的相似Token,减少时间冗余,从而可以增强时序一致性。
图3 视频生成的过程和需要解决的关键问题
VidToMe的视频编辑方法的框架如下图所示。
图4 VidToMe方法的主要流程
该方法的全文下载和代码下载链接如下:
全文下载地址:https://openaccess.thecvf.com/content/CVPR2024/html/Li_VidToMe_Video_Token_Merging_for_Zero-Shot_Video_Editing_CVPR_2024_paper.html。
代码下载地址:https://vidtome-diffusion.github.io/。
关于VidToMe方法的更多细节,读者可以查阅参考文献[2]。
5.自动驾驶场景理解
(1)基于扩散模型的视觉目标跟踪方法DiffusionTrack
对视觉目标进行跟踪,从而预测运动目标的轨迹,这是视频图像理解的基础问题,如下图所示。视觉目标跟踪在自动驾驶、无人机、机器人、智能监控等领域发挥着重要作用。
图5 视觉目标跟踪的实例及应用领域
马超教授团队将扩散模型引入到视觉目标跟踪任务中,提出了一种名为DiffusionTrack的方法。该方法解决了传统视觉目标跟踪中存在的两大关键问题:(1)传统One-shot跟踪模型不具有自我修正能力;(2)长时跟踪过程中目标容易发生剧烈形变。
DiffusionTrack的主要思想是在传统One-Shot跟踪框架中加入去噪扩散过程,如下图所示。
图6 DiffusionTrack(即图中“我们的跟踪框架”)框架与One-Shot跟踪框架的比较
扩散模型的基本步骤包含了添加噪声和去除噪声两个过程。如下图所示,要想得到一张“猫在雪里”的照片,那么可以对一张含有猫的照片添加类似雪花的大量噪声,然后再降低图像中的噪声,从而达到类似雪花飞舞的效果。
图7 扩散模型的实例
要想将扩散模型引入到视觉目标跟踪任务中,关键要解决两个关键问题,一是如何把跟踪过程转化为扩散去噪过程,二是如何将扩散模型集成到现有跟踪模型框架中。DiffusionTrack采用如下图所示的框架巧妙地将扩散模型引入到了视觉目标跟踪任务中。
图8 DiffusionTrack模型的框架
该方法的全文下载和代码下载链接如下:
全文下载地址:https://openaccess.thecvf.com/content/CVPR2024/html/Xie_DiffusionTrack_Point_Set_Diffusion_Model_for_Visual_Object_Tracking_CVPR_2024_paper.html。
代码下载地址:https://github.com/VISION-SJTU/DiffusionTrack。
关于DiffusionTrack模型的更多细节,读者可以查阅参考文献[3]。
(2)基于3D语义占用网格预测的目标感知方法OccGen
交通场景中目标的正确感知对自动驾驶的实现和保障驾驶的安全都至关重要。如下面的视频所示,只有对场景中的道路(亮青色表示),树木(绿色表示)等目标进行正确感知,才能保证车辆的自动驾驶安全。
视频4 自动驾驶场景目标感知演示
为此,马超教授团队提出了一种基于3D语义占用网格预测的目标感知方法OccGen。该方法率先提出基于生成模型的多模态占用预测网格模型,通过将条件解码器得到的特征作为条件不断生成细粒度Occupancy ,从而实现对自动驾驶场景中目标的感知。该方法的整体框架如下图所示。
图9 基于3D语义占用网格预测的目标感知方法的框架
该方法的全文下载和代码下载链接如下:
全文下载地址:https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/03004.pdf。
代码下载地址:https://occgen-ad.github.io/。
关于该模型的更多细节,读者可以查阅参考文献[4]。
6.参考文献
[1] Junyi Cao, Zhichao Li, Naiyan Wang, and Chao Ma. "Lightning NeRF: Efficient Hybrid Scene Representation for Autonomous Driving." In IEEE International Conference on Robotics and Automation (ICRA).2024.
[2] Xirui Li, Chao Ma, Xiaokang Yang, and Ming-Hsuan Yang. "Vidtome: Video token merging for zero-shot video editing." In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 7486-7495. 2024.
[3] Fei Xie, Zhongdao Wang, and Chao Ma. "DiffusionTrack: Point Set Diffusion Model for Visual Object Tracking." In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 19113-19124. 2024.
[4] Guoqing Wang, Zhongdao Wang, Pin Tang, Jilai Zheng, Xiangxuan Ren, Bailan Feng, and Chao Ma. "Occgen: Generative multi-modal 3d occupancy prediction for autonomous driving." In European Conference on Computer Vision, pp. 95-112. 2025.