当前位置: 首页 > article >正文

51c自动驾驶~合集10

 我自己的原文哦~ https://blog.51cto.com/whaosoft/11638131

#端到端任务

说起端到端,每个从业者可能都觉得会是下一代自动驾驶量产方案绕不开的点!特斯拉率先吹响了方案更新的号角,无论是完全端到端,还是专注于planner的模型,各家公司基本都投入较大人力去研发,小鹏、蔚来、理想、华为都对外展示了其端到端自动驾驶方案,效果着实不错,非常有研究价值。

为什么需要端到端?

首先我们聊一下当前的主流自动驾驶方案,主要核心部分包括:感知模块、预测模块、规控模块。每个模块相对独立,感知模块给预测模块提供动静态障碍物信息;预测模块为规控模块提供规划的参考,规划再转换为控制指令。从传感器端到控制端,需要多个功能支持,这就不可避免导致了累积误差,一旦碰到问题,需要整个pipeline做分析。而且每个模块的优化,并不能保证整个系统达成最优解。

图片

这个时候,就希望有一种模型能够完成感知信息的无损传递,即从传感器端到输出控制策略端,这也是端到端自动驾驶提出的原因。传统定义上感知和规划模块的对接一般是通过白名单(比如机动车、行人、甚至occ输出的非通用几何障碍物)的检测与预测来完成,是人为定义的规则和抽象。随着产品的迭代,每一次都需要添加各类case,设计各种博弈的策略,从模型训练到工程部署再到逻辑设计,时间和人力成本高昂。

图片

而且这种方式无法罗列所有情况,那么是否可以通过对整个场景的学习抽象,无损的将所有信息传递给PnC部分?这就是我们期望的端到端。端到端核心是优化最终目标且全局可导,作为一个完整的优化任务来看,直接求最优解,而不是先求感知再求规控的最优解。

端到端效果怎么样?

今年各大自动驾驶公司都在预研和落地相关端到端方案,小鹏、蔚来、华为、理想也都对外展示了其端到端方案。由于端到端模型的优势明显,各大自动驾驶公司都在拼命布局揽人,对应岗位薪资水涨船高,某想甚至开出了七位数给到该岗位。

那么各家的端到端自动驾驶效果怎么样呢?先来看看国外的特斯拉:

再来看看国内的UniAD效果:

不得不说,端到端是一个更简约的方法,更具有全场景的优化能力。

端到端有哪些技术栈?

行业里面的端到端主要分为完全端到端方案、专注于planner的端到端方案(包括某鹏的XPlanner)。顾名思义,完全端到端是从传感器直接到规控;而专注于planner的端到端以感知模块的输出作为先验,替换原来以规则作为主要形式的PnC模块。

图片

从传感器到控制策略的(如果把条件再放松下也可以到轨迹输出)完全端到端方案更为简约,但同样面临一个问题,可解释性差。UniAD用分阶段监督的方法逐步提高了可解释性,但训练仍然是个难题。在足够体量和质量的数据群下,效果能够得到保证,泛化性能也不错。

图片

而专注于planner的端到端方案,如果深究的话,只能算狭义上的端到端,但更贴合当下的量产方案和任务,而且可解释性也较高,是目前主机厂和自动驾驶公司优先推行和落地的。

如果从信息输入的角度上来看,又可以分为纯视觉方案(UAD、UniAD这类)和多模态方案(FusionAD这类),传感器成本不断在下降,多模态方案也一直是行业里面都在关注的点。

#国内智驾感知技术的7位“掌舵人

今年「端到端」席卷自动驾驶行业以来,各个智驾主流团队的人员配置均发生了巨大的改变,其中规控和感知团队的技术骨干动荡尤为剧烈。

感知在自动驾驶中一直是很重要的一环,它是自动驾驶汽车能否成功实现自主导航和操作的关键,决定了自动驾驶汽车“看得清多少路”,以及是否能适应复杂多变的交通环境。「端到端」概念的”崛起“,自动驾驶感知技术也从传统的“模块化”架构向“统一化“架构转型,而转型期间自然会遇到重重障碍,这时团队的掌舵人必须看清目标,带领团队在风潮中安全前行。

今天特地梳理了国内自动驾驶行业感知领域的7位大佬,他们深受自动驾驶行业工程师们敬佩与膜拜,为中国自动驾驶感知的发展进步做出了重要贡献。

(如在阅读过程中您发现了疏漏,欢迎向我们指正建议)

刘兰个川2008年本科毕业于北京大学物理学院物理专业。2014年毕业于美国密歇根大学安娜堡分校(University of Michigan, Ann Arbor),获得物理学博士学位。

博士毕业后,刘兰个川在硅谷和圣地亚哥的多家科技公司任职,利用人工智能进行工业探伤和医学图像处理:2015年2月~2017年4月,他在PerkinElmer担任高级探测器物理学家;2017年5月~10月,刘兰个川在ZEISS Group担任软件开发工程师,负责机器学习解决方案的工作。这一阶段的工作经历使他对人工智能领域有了初步的了解和实践。

2017年10月,刘兰个川加入由高通员工创立的AI初创公司12 sigma(图玛深维),逐渐成为一名深度学习专家。在12 sigma工作的一年半以来,他提升了自己的深度学习和技术管理经验,为后续的职业生涯打下了坚实的基础。

2019年3月,刘兰个川离开12 sigma加入小鹏汽车。最初任职自动驾驶算法总监,负责小鹏汽车智能辅助系统感知功能的研发,并协助搭建小鹏在美国圣地亚哥感知团队;后来全面负责小鹏汽车自动驾驶Xpilot系统感知功能的研发,成为小鹏汽车自动驾驶团队的核心成员。刘兰个川担任小鹏自动驾驶AI团队负责人期间,带领团队从零到一搭建了自动驾驶的BEV感知大模型XNet,并参与了中国最大的自动驾驶智算中心“扶摇”的搭建和维护。曾任小鹏自动驾驶平台北京负责人、XPILOT总监。2023年7月末,刘兰个川离开了小鹏汽车。

离开小鹏后,刘兰个川随即加入Anker,并出任VP,负责具身智能方面(机器人+大模型)的研发工作。2024年1月,刘兰个川离开Anker,两个月后加入了Nvidia,担任感知技术板块的总负责人。

彭超2014年本科毕业于武汉大学空间信息与数字技术专业,2017年硕士毕业于清华大学软件工程大数据专业。

2016年4月~2018年11月,彭超在Megvii (Face++)度过了两年半之久的实习和第一份正式工作的生涯。在Megvii实习和工作期间,他主要负责通用物体分割、通用物体检测和图像分类等三个领域的研究和应用落地工作,取得了世界顶尖的成绩。

2018年12月,彭超加入Momenta,担任高级视觉算法工程师,负责无人驾驶感知算法基础研发工作,在此期间积累了丰富的自动驾驶技术经验。

离开Momenta后彭超加入了蔚来汽车,2024年6月,随着蔚来智能驾驶研发部的调整,彭超被任命为合并后的大模型团队的负责人。他负责带领团队在深度神经网络和智能驾驶技术方面进行研究与应用,推动蔚来智能驾驶技术的发展。

同时,彭超还是CVPR、ICCV、ECCV和AAAI等顶会的审稿人,他在多家顶会顶刊都发表过优秀paper,诸如《Objects365: A Large-Scale,High-QualityDatasetfor ObjectDetection》、《An End-to-End Network for Panoptic Segmentation》等。

陈晓智2012年本科毕业于清华大学电子工程系,2017年获清华大学电子工程博士学位。

正式工作前,陈晓智曾在微软和百度有过两段实习经历,分别于2012年9月~2013年年5月在微软任职软件开发实习生,2016年7月~2017年5月在百度自动驾驶感知团队任实习生。

2017年7月,陈晓智加入大疆,时任高级机器学习工程师。2020年1月,他被任命为机器学习研发经理,并在2023年大疆车载“单飞”为卓驭科技后担任卓驭科技感知团队的总负责人。

陈晓智亲自带队的感知部门,致力于智能驾驶系统的感知技术预研和产品落地工作。该部门在算法岗位方向有着丰富的需求,包括但不限于单目/双目深度估计、光流估计、SLAM、三维重建、Nerf、模型轻量化设计、分布式训练、物体检测、语义分割、多传感器融合、图像增强、ISP以及传感器标定等方向。

张雨2016年获卡内基梅隆大学计算机视觉的硕士学位,发表过多篇高影响力论文。

硕士毕业1年后,张雨加入Waymo Research担任软件研发工程师,2019年5月,张雨离开了Waymo。离开Waymo后,他随即加入轻舟智航,目前担任轻舟智航感知总监,已在轻舟经历了5年多的任期,是计算机视觉、机器人学、机器学习等领域的专家,负责轻舟智航感知模块算法研发工作。

李阳光2009年本科毕业于吉林大学计算机科学与技术专业,2012年获中科院计算技术研究所硕士学位。

硕士毕业后李阳光随即加入极客网,担任软件工程师,2013年10月他离开了极客网。离开极客网后不久,李阳光火速入职百度,担任高级软件工程师,在百度任职3年7个月。

2017年4月离开百度后,李阳光加入小马智行,担任感知领域技术负责人,负责自动驾驶感知技术的研发及感知系统工程架构等工作。同时,他也是小马智行车路协同项目的负责人,负责推动车路协同技术的发展和应用场景的实践探索。

李阳光领导小马智行感知团队在感知系统方面取得了显著成果,通过多样化传感器的配置和多传感器深度融合的方案,实现了对自动驾驶车周围环境的精确感知。在车路协同领域,他推动了多项示范场景的建设和应用,如广州南沙的自动驾驶示范场景、亦庄交通队执法赋能等,为车路协同技术的发展和应用提供了有力支持。

杨奎元2007年本科毕业于中国科学技术大学自动化专业,2012年获中国科学技术大学自动化博士学位。

博士毕业的同年,杨奎元加入微软担任研究员,在这里度过了5年的职业生涯。2017年7月,杨奎元从微软离职,成为了DeepMotion(深动科技)的首席科学家兼联合创始人之一。在深动科技,杨奎元度过了4年2个月的职业生涯。

2021年8月,小米收购深动科技,杨奎元也随之加入小米汽车,成为智能驾驶部门感知方向的专家工程师。

杨奎元曾在深动科技带领团队研发了多传感器融合感知模组、高精地图自动化构图、高精度定位等技术方案,在自动驾驶著名榜单KITTI、Cityscapes上多次取得优异成绩。他还发表了多篇顶级国际会议/期刊论文,诸如《DenseASPP for semantic segmentation in street scenes》、《Hard-aware deeply cascaded embedding〉等,他还获得了多项国际专利。由他孵化的多项基础技术已服务于高精地图自动化生产、4D时空数据自动化标注等领域。

董远强2010年毕业于美国密苏里大学哥伦比亚分校,获电子和计算机工程专业博士学位。

2011年9月,董远强加入UtopiaCompression,担任计算机视觉科学家,后于2015年11月离开UtopiaCompression。同年12月,董远强加入Nvidia,担任高级视觉算法工程师,在Nvidia度过了3年4个月的职业生涯。

2019年4月,董远强离开Nvidia加入腾讯驻美国团队,担任首席科学家并负责智能驾驶感知方面的工作把控。

2021年4月,董远强结束了在腾讯的工作生涯,1个月后正式加入小鹏汽车,担任智驾部门感知方向的首席工程师,彼时向当时的智驾感知总负责人王弢汇报工作。随着王弢的离职和淡出一线,董远强接管了小鹏汽车的智驾感知工作,成为该领域的负责人。2022年8月,董远强领导技术开发部的100+成员团队,团队人才涵盖感知、传感器融合、预测等领域。2023年11月,董远强正式成为小鹏汽车智驾感知的总负责人,并担任技术研发的掌舵者,推动中美研发部门的智驾项目交付。

董远强曾发表过多篇优秀paper,如《A Video-based Adaptive Intelligent Hemispherical Threat Detection System》,《An Intelligent Visual Sensing System for Unmanned Surface Vehicle》等。

#CLIP(Contrastive Language-Image Pre-training)

CLIP怎么“魔改”?盘点CLIP系列模型泛化能力提升方面的研究

CLIP(Contrastive Language-Image Pre-training)系列模型自推出以来,在多个领域展现了强大的跨模态泛化能力,比如在跨模态检索、图像搜索、图像识别与分类等方面取得了显著的研究成果。CLIP模型在预训练阶段学习到的通用知识可以迁移到特定的下游任务中,这有助于在缺乏大量标注数据的情况下,提升模型在新任务上的性能。CLIP的泛化能力使其能够跨足不同的领域和任务,如视频行为识别,即使在没有针对特定任务进行过训练的情况下,也能够表现出良好的性能。本文总结了CLIP的几大经典应用场景,并梳理了近期发布的一些公众:在局部物体识别、图像生成、音频生成、动作识别和零样本异常检测多个领域的泛化能力。

为了将CLIP扩展为多模态模型,从而能够适用于多模态任务,文章对CLIP进行了多种“改造”:添加模态特定的编码器从而将多模态信息输入CLIP、在CLIP多模态编码器中使用适配器、添加投影层将不同模态的特征映射到一个共同的特征空间、使用多任务解码器同时处理多种类型的任务、利用掩码语言模型来增强文本编码器对其他模态描述的理解、设计有效的融合策略来结合不同模态的信息、利用注意力机制来选择性地关注不同模态中与任务最相关的部分等。通过以上方法,CLIP可以被扩展为一个强大的多模态模型,能够处理包括图像、视频、文本和音频在内的多种数据类型,进而在多模态学习和理解任务中展现出强大的泛化能力。

1 局部物体识别

重新思考low-shot CLIP 适配中的视觉内容细化

Jinda Lu, Shuo Wang, Yanbin Hao, Haifeng Liu, Xiang Wang, Meng Wang

​​https://arxiv.org/abs/2407.14117​​

文章总结

最近的研究表明可以通过促进知识有效转移来提高对比视觉语言预训练(CLIP)的low-shot能力。然而,对原有模型的调整方法通常是在输入图像的全局视图上操作的,因此对图像的部分局部细节的感知是有偏差的。为了解决这个问题,我们提出了在测试阶段的适应计算之前进行视觉内容细化(VCR, Visual Content Refinement)。具体来说,我们首先将测试图像分解为不同的比例,以将特征提取器的注意力转移到图像的细节上。然后,我们选择每个尺度中具有最大预测边际(max prediction margin)的图像视图,以过滤掉嘈杂的图像视图,其中预测边际是根据预训练的 CLIP 模型计算的。最后,我们根据所选图像视图的比例合并其内容,以构建新的具有鲁棒性的表示。因此,合并的内容可以直接用于帮助适配器专注于全局和局部部分,而无需任何额外的训练参数。将本文的方法应用于具有 13 个数据集的 3 个低样本基准任务,取得了比最先进方法的显著改进。例如,与少样本分类任务的基线(Tip-Adapter)相比,本文的方法在免训练和需要训练的设置中平均实现了约2%的性能改进。

模型解析

  • 本文的模型聚焦于图像多尺度分解,即将测试图像分解成不同的尺度(或称为“视图”),旨在使特征提取器能够关注到图像中的细节信息,通过多尺度分解,不同尺度的图像视图能够捕捉到从全局到局部的多种特征。
  • 在每个尺度中选择最具代表性的图像视图,即那些对分类任务贡献最大的视图,以过滤掉噪声和冗余信息:使用预训练的 CLIP 模型对每个图像视图进行预测,并计算其预测边际。预测边际反映了模型对特定类别的确信程度,通常通过最优分类得分与次优得分的差值来衡量。在每个尺度中,选择具有最大预测边际的图像视图。
  • 将不同尺度下选出的图像视图合并成一个新的表示,该表示既包含全局信息也包含重要的局部细节:对于不同尺度下的细化特征,通过学习一个权重向量来实现,该向量对不同尺度的特征给予不同的重视程度。将这些加权后的特征进行合并,即将多个尺度的特征按照权重相加,形成一个统一的表示。
  • 这个新的表示可以用于免训练适配器(training-free adapter)或提示学习器(prompt learner),帮助模型更有效地理解和适应不同的任务和数据。

该模型框架通过图像的多尺度分解、基于预测边际的图像视图选择和图像多视图内容的合并,有效地提升了低样本 CLIP 适配的性能。

SAM2CLIP2SAM:3D CT 扫描分割的视觉语言模型

Dimitrios Kollias, Anastasios Arsenos, James Wingate, Stefanos Kollias

​​https://arxiv.org/abs/2407.15728​​

文章总结

本文提出了一种图像有效分割的新方法,可以集成到任何模型和方法中,对用于 Covid-19 检测的医学图像(3D 胸部 CT 扫描)进行分类。本文的方法包括视觉语言模型的组合,这些模型对 CT 扫描进行分割,然后将其馈送到名为 RACNet 的深度神经架构中,用于 Covid-19 检测。特别是,引入了一个名为 SAM2CLIP2SAM 的新框架进行分割,该框架利用 Segment Anything Model (SAM) 和 Contrastive Language-Image Pre-Training (CLIP) 的优势,在 CT 扫描中准确分割右肺和左肺,随后将这些分割输出输入 RACNet,用于对 COVID-19 和非 COVID-19 病例进行分类。首先,SAM 为 CT 扫描中的每个切片生成多个基于零件的分割模板;然后 CLIP 仅选择与感兴趣区域 (ROI, regions of interest) 相关的掩码,即右肺和左肺;最后,SAM 被赋予这些 ROI 作为提示,并为肺部生成最终的分割掩码。实验使用了两个 Covid-19 注释的数据库,这些数据库说明了当我们的方法用于 CT 扫描分割时实现了性能的改进。

模型解析

  • 文章提出的模型框架名为SAM2CLIP2SAM。首先使用Segment Anything Model(SAM)对CT扫描中的每一层(slice)进行初步分割,生成多个基于部分的分割掩码(part-based segmentation masks)。
  • 利用Contrastive Language-Image Pre-Training(CLIP)模型从SAM生成的多个分割掩码中选择与感兴趣区域(ROIs),即右肺和左肺,相关的掩码。CLIP通过对比图像和文本描述之间的相似性来实现这一目标,它能够识别出与“右肺”和“左肺”描述最匹配的分割掩码。再将CLIP选择的ROIs作为提示(prompts)重新输入给SAM,SAM根据这些ROIs生成针对右肺和左肺的最终精细化分割掩码。
  • 这些分割后的图像数据被输入到RACNet中,RACNet是一个专门为处理3D CT扫描数据设计的深度神经网络架构,包括一个卷积神经网络(CNN)和一个递归神经网络(RNN)。RACNet通过处理这些分割后的图像数据,提取相关特征,并基于这些特征对输入进行COVID-19和非COVID-19病例的分类。

该框架的创新之处在于它巧妙地结合了SAM在广泛对象分割方面的强大能力和CLIP在理解图像与文本之间关系方面的优势,实现了对CT扫描中特定区域(如肺部)的精确分割。随后,通过RACNet对分割后的图像数据进行深入分析,提高了COVID-19诊断的准确性和可靠性。

2 图像生成

DiffX:指导布局进行跨模态生成建模

Zeyu Wang, Jingyu Lin, Yifei Qian, Yi Huang, Shicen Tian, Bosong Chai, Juncan Deng, Lan Du, Cunjian Chen, Yufei Guo, Kejie Huang

​​https://arxiv.org/abs/2407.15488​​

文章总结

扩散模型在文本驱动和布局驱动的图像生成方面取得了重大进展。但是,大多数扩散模型仅限于生成可见的 RGB 图像。事实上,人类对世界的感知因各种观点而丰富,包括色差、热照明和深度信息。本文介绍了一种用于一般布局引导的跨模态“RGB+X”生成的新型扩散模型,称为DiffX。首先使用LLaVA模型构建带有文本描述的跨模态图像数据集,并辅以手动校正。值得注意的是,DiffX 提供了一个简单而有效的跨模态生成建模管道,该管道在双路径变分自动编码器 (DP-VAE) 的推动下,在模态共享的潜在空间中进行扩散和去噪过程。此外,结合了门控交叉注意力机制来连接布局和文本条件,利用 Long-CLIP 嵌入长字幕以增强用户指导。通过广泛的实验,DiffX在各种布局类型的指导下,在三个RGB+X数据集(FLIR、MFNet和COME15K)上展示了跨模态生成的鲁棒性和灵活性。它还显示了自适应生成“RGB+X+Y”或更多样化模态的潜力。

模型解析

  • 文章首先使用LLaVA模型(一种用于图像标注的模型)来自动生成跨模态图像数据集的文本描述,并辅以手动校正。
  • 然后利用DiffX模型进行跨模态生成建模,该过程在模态共享的潜在空间中进行扩散和去噪。模型的核心是双路径变分自编码器(DP-VAE),它允许在不同模态(如RGB和X)之间共享潜在表示,从而支持跨模态生成。
  • 为了连接布局和文本条件,DiffX模型结合了门控交叉注意力机制,有效地将布局信息和文本信息相结合,使模型能够更准确地理解用户意图和生成指导。为了进一步增强用户指导,DiffX模型利用Long-CLIP来嵌入长字幕,从而能够处理更长的文本描述,并将其转换为有效的特征表示,这些特征表示被用于指导跨模态图像的生成过程。

DiffX模型通过结合先进的数据集构建方法、跨模态生成建模、门控交叉注意力机制和Long-CLIP嵌入技术,实现了有效的跨模态“RGB+X”图像生成,展示了在更复杂的跨模态生成任务(如“RGB+X+Y”或更多样化的模态)中的潜力。

X-Former:MLLM的统一对比和重构学习

Sirnam Swetha, Jinyu Yang, Tal Neiman, Mamshad Nayeem Rizve, Son Tran, Benjamin Yao, Trishul Chilimbi, Mubarak Shah

​​https://arxiv.org/abs/2407.13851​​

文章总结

多模态大型语言模型 (MLLM) 的最新进展通过将视觉感知能力集成到大型语言模型 (LLM) 中,彻底改变了视觉语言理解领域。该领域的流行趋势涉及使用源自视觉语言对比学习 (CL) 的视觉编码器,在捕捉整体表征方面表现出专业知识,同时在捕捉详细的局部模式方面面临困难。这项工作专注于通过结合通过掩码图像建模 (MIM) 获得的高频和详细视觉表示与 CL 捕获的语义丰富的低频表示增强 MLLM 的视觉表示。为了实现这一目标,本文推出了X-Former,这是一种轻量级Transformer模块,旨在通过创新的相互作用机制来利用CL和MIM的互补优势。具体来说,X-Former 首先从两个冻结的视觉编码器(即 CLIP-ViT(基于 CL)和 MAE-ViT(基于 MIM))中启动视觉语言表示学习和多模态到多模态生成学习。它进一步利用冻结的 LLM 进行视觉到语言的生成学习,以确保 X-Former 的视觉特征可以被 LLM 解释。为了证明我们方法的有效性,我们评估了其在需要详细视觉理解的任务中的性能。广泛的评估表明,X-Former 在涉及 GQA 数据集中结构和语义类别的视觉推理任务中表现出色。细粒度视觉感知基准评估进一步证实了其在视觉理解方面的卓越能力。

模型解析

  • 首先利用两个冻结的视觉编码器(CLIP-ViT和MAE-ViT)来引导视觉语言表示学习,CLIP-ViT通过视觉语言对比学习策略进行预训练,而MAE-ViT通过随机掩码图像建模机制进行训练,两个视觉编码器从输入图像文本对中提取视觉特征。为了整合这两种视觉编码器的信息,并同时学习全局和局部信息,引入了一个轻量级的Transformer模块,称为X-Former,它扩展了Q-Former来整合全局和局部信息。
  • X-Former的输入为一组可学习的query Z,输入文本Tk和图像特征(C, M)。第一个交叉注意块采用MAE特征(M)作为query,Q-Former输出(Zq)作为key和value,通过集成来自Q-Former的全局语义信息来对齐和增强M,从而丰富了MAE特征(M’)。随后,M’通过交叉注意整合全局和局部信息,将Q-Former输出(Zq)增强到Z '。
  • 增强查询(Z ')根据图像文本匹配(ITM)、图像文本对比(ITC)和图像文本生成(ITG)损失进行了优化。最后,将M′传递给冻结的MAE解码器来重建被屏蔽的补丁。

X-Former是一个轻量级的Transformer模块,它设计了一种创新的交互机制来利用对比学习(CL)和掩码图像建模(MIM)的互补优势。通过这种机制,X-Former能够有效地融合CLIP-ViT和MAE-ViT的输出,并生成既包含全局语义信息又包含详细局部特征的视觉表示。

3 音频生成

!盲文也能玩:盲文转语音生成器-基于 CLIP 和 Fastspeech2 联合微调的音频生成

Chun Xu, En-Wei Sun

​​https://arxiv.org/abs/2407.14212​​

文章总结

越来越多的中国人受到不同程度的视觉障碍的困扰,这使得视野中的单个图像或视频帧与表达相同信息的音频之间的模态转换成为研究热点。OCR+Vocoder 和 Im2Wav 等深度学习技术以自监督的方式实现英语音频合成或图像到声音的匹配。然而,用于培训的音频数据有限,英语对于不同教育水平的视障人士来说并不通用。因此,为了解决数据量和语言适用性问题,提高视障人群的阅读效率,构建了一套基于中文语境的图像转语音框架CLIP-KNN-Fastspeech2。该框架整合了多个基础模型,并采用了自主预训练和联合微调的策略。首先,分别在MUGE和Baker两个公共数据集上对中文CLIP和Fastspeech2文本转语音模型进行了预训练,并验证了它们的收敛性。随后,使用自建盲文图像数据集进行联合微调。在VGGSound、Flickr8k、ImageHear等多个公共数据集和自建盲文数据集BIT-DP上的实验结果表明,该模型在BLEU4、FAD(Fréchet Audio Distance)、WER(Word Error Ratio)等客观指标上均有所提升,甚至推理速度也有所提升。这验证了构建的模型在有限的数据下仍然具有合成高质量语音的能力,也证明了整合多个基础模型的联合训练策略的有效性。

模型解析

  • CLIP-KNN-Fastspeech2 模型架构分为两个主要阶段:图像到文本阶段(image-to-text)和文本到语音阶段(text-to-speech)。
  • 图像到文本阶段使用Chinese CLIP模型进行自监督学习和对比学习,在MUGE等公开数据集上进行预训练,学习图像与文本对的特征;再基于Chinese CLIP模型提取的特征,利用KNN算法从图像中检索出文本信息,KNN根据正负样本之间的特征差异来提取文本。
  • 文本到语音阶段使用Fastspeech2 文本转语音模型,在Baker等公开数据集上进行预训练,学习文本到语音的映射关系。输入上一阶段生成的文本,生成对应的mel频谱图,并将其解码为语音。

最后使用自建的盲文图像数据集(Braille dataset)进行联合微调。

4 动作识别

M2-CLIP:一种用于视频动作识别的多模态、多任务自适应框架

Mengmeng Wang, Jiazheng Xing, Boyuan Jiang, Jun Chen, Jianbiao Mei, Xingxing Zuo, Guang Dai, Jingdong Wang, Yong Liu

​​https://arxiv.org/abs/2401.11649​​

文章总结

近年来,大规模视觉语言预训练模型(如CLIP)的兴起,再加上参数高效微调(PEFT)技术,在视频动作识别领域引起了极大的关注。然而,流行的方法倾向于优先考虑强大的监督性能,代价是在迁移过程中损害模型的泛化能力。本文引入了一种名为M2-CLIP的新型多模态、多任务CLIP适应框架来解决这些挑战,同时保持高监督性能和鲁棒可移植性。首先,为了增强单个模态体系结构,我们在可视化和文本分支中引入了多模态适配器。具体来说,文章设计了一种新的视觉TED适配器,它执行全局时间增强和局部时间差分建模,以提高视觉编码器的时间表示能力。此外,我们采用文本编码器适配器来加强语义标签信息的学习。其次,文章设计了一个具有丰富监督信号集的多任务解码器,以熟练地满足在多模态框架内对强监督性能和泛化的需求。实验结果验证了我们的方法的有效性,在监督学习中表现出卓越的性能,同时在零样本场景中保持了很强的泛化。

模型解析

  • M2-CLIP框架输入为视频V和文本标签y,视频经过视频编码器处理后,其特征在时间维度上进行平均池化,得到最终的视频表示v。文本标签经过文本编码器处理后,得到文本表示w。输出为通过多任务解码器得到的分类结果,可以用于监督学习任务和零样本分类任务。
  • M2-CLIP引入了多模态适配器,包括一个视觉TED-Adapter,用于改善视觉编码器的时间表示能力,来实现全局时间增强(Temporal Enhancement)和局部时间差异(local temporal Difference)建模;以及一个文本编码器适配器,用于加强学习语义标签信息。
  • M2-CLIP的多任务解码器包括对比学习头(Contrastive Learning Head),用于对齐视频和文本表示的成对表示,使用对比学习损失进行优化;跨模态分类头(Cross-Modal Classification Head, CMC),用于突出跨模态特征的判别能力,通过将问题转化为1-C分类任务来增强跨模态相似性分数;跨模态掩码语言模型头(Cross-Modal Masked Language Modeling Head, CMLM),在文本分支的最后一层设计,促进视觉特征聚焦于动作动词的识别,使用BERT掩码语言模型头来预测掩码词;视觉分类头(Visual Classification Head, VC),在视觉分支末端引入,用于增强不同类别视频特征的区分度,使用线性层进行分类。

M2-CLIP框架能够在保持高监督性能的同时,实现强大的零样本泛化能力。这得益于模型的多模态适配器和多任务解码器,它们共同作用于视频和文本的联合表示学习,并通过不同的学习任务来提升模型的语义对齐和类别区分能力。

细粒度知识图谱驱动的视频语言学习,用于动作识别

Rui Zhang, Yafen Lu, Pengli Ji, Junxiao Xue, Xiaoran Yan

​​https://arxiv.org/abs/2407.14146​​

文章总结

最近的工作已经探索了视频动作识别作为视频-文本匹配问题,并提出了几种基于大规模预训练视觉语言模型的有效方法。然而,这些方法主要在粗粒度的层面上运行,而没有通过利用动作和身体运动之间的细粒度语义联系来对动作概念进行详细的语义理解。为了解决这一差距,我们提出了一个由知识图谱指导的对比视频语言学习框架,称为KG-CLIP,它将结构化信息整合到视频领域的CLIP模型中。具体来说,我们通过基于组合学习的解析动作,构建了一个由多粒度概念组成的多模态知识图谱。通过实现三元编码器偏差补偿来自适应优化实体距离函数中的边际,我们的模型旨在改善知识图谱中实体的对齐,以更好地适应复杂的关系学习。这允许通过适应图形组件之间的细微关联来增强视频动作识别功能。我们在Kinetics-TPS(一个大规模的动作解析数据集)上全面评估了KG-CLIP,证明了其与竞争基线相比的有效性。特别是,我们的方法在样本帧少或训练数据有限的情况下,在动作识别方面表现出色,表现出优异的数据利用和学习能力。

模型解析

  • KG-CLIP通过解析视频内容(如动作、场景、物体等)和相关的文本描述(如动作标签、句子描述等),构建了一个多模态知识图谱。这个图谱不仅包含了视频中的视觉元素(如动作、身体部位的运动),还包含了它们之间的语义关系和上下文信息(如动作描述、概念标签等)。在构建好知识图谱后,KG-CLIP将其与CLIP模型进行融合。通过扩展CLIP模型的输入层,使其能够接收知识图谱中的结构化信息(如实体嵌入、关系向量等),以在视频领域实现更高效的视频-文本匹配
  • 然后利用CLIP模型的视觉编码器部分,从视频中提取出丰富的视觉特征,包括视频中的基本元素(如颜色、纹理、形状等),及更高级别的语义信息(如动作、场景等)。
  • KG-CLIP用一个三元编码器捕捉三元组中的实体和关系信息,它接收知识图谱中的三元组作为输入,并输出每个实体和关系的向量表示(如<头实体, 关系, 尾实体>)。这些向量表示随后被用于计算实体之间的距离和相似性。
  • KG-CLIP引入了偏差补偿机制,根据实体的具体特征和它们之间的关系,动态调整距离函数中的参数。这样KG-CLIP能够更准确地衡量实体之间的相似性和差异性,从而提高模型的整体性能。

KG-CLIP通过一系列创新性的设计(如知识图谱构建、三元编码器实现、偏差补偿机制等),成功地将结构化信息整合到CLIP模型中,并在视频动作识别等任务中取得了显著的性能提升。

5 零样本异常检测

AnomalyCLIP:用于零样本异常检测的对象识别提示学习

Qihang Zhou, Guansong Pang, Yu Tian, Shibo He, Jiming Chen

​​https://arxiv.org/abs/2310.18961​​

文章总结

最近,大型预训练视觉语言模型 (VLM),例如 CLIP,在包括异常检测在内的各种视觉任务中展示了强大的零样本识别能力。然而,它们的零样本异常检测(ZSAD)性能较弱,因为VLM更侧重于对前景对象(foreground objects)的类语义进行建模,而不是图像中的异常/正常性(abnormality/normality)。本文引入了一种新的方法,即AnomalyCLIP,使CLIP在不同领域中实现准确的ZSAD。AnomalyCLIP 的关键是学习与对象无关的文本提示,这些文本提示会捕获图像中的一般正常性和异常性,而不管其前景对象如何。这使我们的模型能够专注于异常图像区域而不是对象语义,从而能够对不同类型的对象进行广义正常性和异常识别。在17个真实世界异常检测数据集上的大规模实验表明,AnomalyCLIP在各种缺陷检测和医学成像领域的高度多样化的类别语义数据集中实现了卓越的零样本检测和分割异常性能。

模型解析

  • AnomalyCLIP设计了两种通用的与对象无关文本提示(Object-Agnostic Text Prompts)模板:一种用于正常性(normality),另一种用于异常性(abnormality)。这些提示模板不包含具体对象的语义,而是专注于捕获图像中的异常模式,无论前景对象是什么。
  • 然后进行全局上下文优化和局部上下文优化:通过交叉熵损失函数,将对象无关的文本嵌入与辅助数据中正常/异常图像的视觉嵌入进行匹配,以捕获全局特征中的正常/异常语义。通过焦点损失(Focal Loss)和Dice损失,优化文本提示以关注视觉编码器中间层的细粒度、局部异常区域。
  • 通过在CLIP文本编码器的每一层添加可学习的标记嵌入(token embeddings),来精细化原始文本空间,使其更适合异常检测任务。通过引入对角突出的注意力图(Diagonally Prominent Attention Map, DPAM)来改进局部视觉空间,使得注意力图更加关注局部视觉语义,从而提高异常检测的准确性。AnomalyCLIP整合了来自视觉编码器多个中间层的特征,以提供更多的局部视觉细节,增强模型对异常区域的识别能力。

AdaCLIP:使用混合可学习提示的自适应CLIP用于零样本异常检测

Yunkang Cao, Jiangning Zhang, Luca Frittoli, Yuqi Cheng, Weiming Shen, Giacomo Boracchi

​​https://arxiv.org/abs/2407.15795​​

文章总结

零样本异常检测(ZSAD)的目标是从任意新颖的类别中识别图像中的异常。本研究引入AdaCLIP用于ZSAD任务,利用预训练的视觉语言模型(VLM)CLIP。AdaCLIP将可学习的提示整合到CLIP中,并通过在辅助注释的异常检测数据上进行训练来优化它们。AdaCLIP引入了两种类型的可学习提示:静态提示和动态提示。静态提示在所有图像中共享,用于初步调整CLIP以适应ZSAD。相比之下,为每个测试图像生成动态提示,为CLIP提供动态自适应功能。静态和动态提示的组合称为混合提示,可提高ZSAD性能。在工业和医疗领域的14个真实世界的异常检测数据集上进行的广泛实验表明,AdaCLIP优于其他ZSAD方法,可以更好地推广到不同的类别甚至领域。最后,我们的分析强调了多样化辅助数据和优化提示对于提高泛化能力的重要性。

模型解析

  • AdaCLIP引入了两种类型的提示——静态提示(Static Prompts)和动态提示(Dynamic Prompts)。静态提示在所有图像中共享,它们在训练过程中从辅助数据中学习,用于初步调整CLIP模型以适应ZSAD任务。动态提示是针对每个测试图像生成的,它们提供了模型对不同图像的动态适应能力。将静态和动态提示结合起来,形成混合提示,这样可以提高模型对新类别图像的异常检测性能。
  • 为了解决CLIP原始架构中图像嵌入(Patch Embeddings)与文本嵌入维度不匹配的问题,AdaCLIP添加了一个投影层来对齐这些嵌入的维度,并通过引入偏差的线性层增加了一些可学习的参数,以进一步微调CLIP。
  • AdaCLIP还引入了混合语义融合模块(Hybrid Semantic Fusion, HSF)用于改善像素级别的异常检测。首先AdaCLIP利用CLIP模型的不同层次的输出来生成异常图(Anomaly Maps,基于图像嵌入(Patch Embeddings)和文本嵌入(Text Embeddings)之间的余弦相似度计算得到。每个层次的异常图反映了图像中不同区域的异常程度。然后混合语义融合模块使用KMeans++算法对来自不同层次的异常图中的嵌入进行聚类。这些聚类假设代表了图像中的不同区域,其中具有最高平均异常分数的聚类可能对应于异常区域。最后将这些异常图融合成一个最终的预测,从而更准确地定位和识别图像中的异常区域。

综上,AdaCLIP通过计算图像嵌入和文本嵌入之间的余弦相似度来确定异常分数,这些分数表示图像及其像素是否正常或异常。

#交互感知再升级

感知预测规划在Waymo24挑战赛中有哪些亮点?

赛事链接:https://cvpr2024.wad.vision/

CVPR 2024 Workshop on Autonomous Driving (WAD) 作为自动驾驶领域的重要盛会,随着自动驾驶技术飞速发展不断与时俱进,全面覆盖自动驾驶的各个领域,包括感知、行为预测以及运动规划等。其中的Waymo Open Dataset Challenges 的参赛者需利用Waymo提供的大规模开放数据集,开发并优化其自动驾驶算法,以应对复杂多变的交通场景。

2024CVPR Waymo挑战赛有以下赛道:

(1)运动预测:给定相应地图上过去1秒的历史agent以及此时间间隔的相关激光雷达和相机数据,预测未来8秒内最多8个代理的位置。可以选择使用激光雷达和摄像头数据。

(2)模拟agent:给定代理在相应地图上过去1秒的轨迹,以及可选的此时间间隔的相关激光雷达,为场景中的所有agent模拟32个逼真的联合预测。

(3)3D语义分割:给定一个或多个激光雷达距离图像和相关的相机图像,为每个激光雷达点生成语义类标签。

(4)占用和流量预测:根据最后一秒观察到的agent轨迹,预测所有观察到的和被遮挡的车辆的BEV占用和运动流量。

参赛作品往往致力于融合多个模型框架,从而使模型能够处理多模态输入数据(激光雷达和摄像头数据)。这些作品多在损失函数策略方面创新或使用多种损失函数来优化模型,通过更新锚点、恢复历史轨迹、采用多帧训练、改进场景编码等方法,提高模型与场景的交互性,从而提高模型对多个agent对象预测的稳健性,提升模型在复杂场景中的表现。除了改进模型架构设计以外,参赛者还会后续不断评估模型的性能,并根据评估结果对模型进行持续优化,这包括调整模型结构、优化超参数、改进数据预处理和数据增强方式等。

运动预测挑战 MOTION PREDICTION CHALLENGE

1st:MTR v3模型

MTR v3: 1st Place Solution for 2024 Waymo Open Dataset Challenge - Motion Prediction

Chen Shi, Shaoshuai Shi, Li Jiang, The Chinese University of Hong Kong (Shenzhen) , DiDi Global

链接:https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%20Motion%20Prediction%20Challenge%20-%201st%20Place%20-%20MTR%20v3.pdf

本文提出的解决方案名为MTR v3,是基于先进的MTR++框架进行扩展。通过引入原始LiDAR数据和动态更新的锚点来改进模型,同时采用简单的模型集成技术进一步提升性能。模型包括场景编码器网络和运动解码器网络,其中场景编码器网络的输入为历史轨迹、道路地图和原始LiDAR点云,之后通过LiDAR编码器分割网络提取体素特征,生成语义标签,并在BEV空间中进行编码,再使用Transformer编码器通过查询中心化的局部自注意力层来聚合特征。运动解码器网络首先从K个意图点(锚点)生成每个焦点代理的意图查询(Intention Querying),再输入解码器层,通过交叉注意力模块更新意图查询,以聚合来自代理特征、地图特征和LiDAR特征的信息。最后通过预测头(Prediction Head),使用多层感知机预测多模态未来轨迹,表示为高斯混合模型(GMM)。

实验过程中,文章进行了动态锚点与模型集成。动态锚点即采用动态更新和不同的锚点,根据预测的轨迹终点动态选择正意图查询,以适应特定场景,提高回归能力。并且,文章训练多个模型变体,在推理时采用模型集成策略,通过非最大抑制(NMS)选择前6个预测轨迹。实验结果显示,该在Waymo开放数据集运动预测挑战赛中排名第一,soft mAP为0.4967,优于其他方法。

关键技术与贡献:

LiDAR数据融合:通过引入原始LiDAR数据,提供细粒度的语义信息,改善了对行人运动的预测。

动态锚点更新:采用动态更新和不同的锚点,解决了传统方法中锚点稀疏导致的高回归误差问题。

模型集成策略:通过模型集成技术,进一步提升了最终的性能表现。

2nd:ModeSeq模型

Zikang Zhou, Jianping Wang, Yung-Hui Li, Yu-Kai Huang - City University of Hong Kong, Hon Hai Research Institute, Carnegie Mellon University

链接:https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%20Motion%20Prediction%20Challenge%20-%202nd%20Place%20-%20ModeSeq.pdf

ModeSeq框架是一种基于顺序模式建模的多模态运动预测框架,利用RNN风格的Transformer模块顺序解码轨迹模式,解决了多模态真实轨迹缺失的问题,提高预测轨迹的多样性。ModeSeq框架的编码器采用QCNet中的因子化Transformer,获取具有旋转平移不变性的场景嵌入(scene embeddings)。ModeSeq的层由记忆Transformer模块和因子化Transformer模块组成,顺序解码多个轨迹模式。其中记忆Transformer通过注意力机制让当前查询特征关注之前解码的模式,建模模式间的顺序依赖;因子化Transformer利用时间Transformer、代理-地图Transformer和代理-代理Transformer进一步丰富查询特征。最后预测头使用多层感知机解码轨迹和置信度分数。ModeSeq通过堆叠多个ModeSeq层并进行迭代细化,提升预测性能,并在每个新层开始前,根据置信度分数对模式嵌入进行排序,确保解码顺序的合理性。

在训练策略优化上,文章提出Early-Match-Take-All(EMTA)训练策略,采用EMTA损失,优化最早匹配的轨迹,鼓励模型尽早解码匹配轨迹。回归损失基于Laplace负对数似然,优化最早匹配的轨迹。分类损失使用二元焦点损失(Binary Focal Loss)优化置信度分数,通过单调递减的标签分配鼓励模型先输出更自信的模式。实验结果显示,在验证集上,ModeSeq在mAP、Soft mAP和Miss Rate上优于QCNet,但在minADE和minFDE上略逊一筹。该方法在不牺牲过多minADE和minFDE的情况下,显著提高了mAP、Soft mAP和Miss Rate,为多模态问题提供了新的见解和解决方案。

3rd:RMP_Ensemble

Jiawei Sun, Jiahui Li, Tingchen Liu, Chengran Yuan, Shuo Sun, Yuhang Han, Keng Peng Tee, Anthony Wong, Marcelo H. Ang Jr. - National University of Singapore, Moovita Pte Ltd

链接:https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%20Motion%20Prediction%20Challenge%20-%203rd%20Place%20-%20RMP_Ensemble.pdf

准确预测周围交通参与者的未来轨迹对自动驾驶车辆至关重要。当前预测方法依赖完整的历史轨迹数据,但在实际场景中,由于遮挡、传感器故障和恶劣天气条件,历史轨迹可能不完整。因此本文希望提出一个简单的恢复模块,旨在恢复不完整的历史轨迹,以增强预测鲁棒性。本文基于MTR框架进行修改,引入恢复模块,提出了RMP集成方法。除了使用当前交通灯信息外,还纳入了历史相对运动信息作为输入上下文。使用多尺度LSTM和PointNet-like网络处理时空信息,并通过多上下文门控(MCG)进行特征融合。恢复模块是通过局部注意力机制和MLP层恢复不完整的历史轨迹,并将恢复的信息集成到代理标记中。编码器对特征通过多尺度LSTM和MCG模块进行聚合和融合,利用局部注意力机制进行进一步特征提取。解码器与MTR解码器相同,但在损失计算之间应用了演化和不同的锚点技巧。总损失函数由MTR原始损失和恢复损失组成,旨在同时优化预测精度和恢复模块性能。其中恢复损失是通过L1损失计算恢复的历史轨迹与真实历史轨迹之间的差异。实验结果显示,使用Waymo Open Motion Dataset进行训练和评估,RMP集成方法在Soft mAP上排名第三,重叠率排名第一,ADE和FDE也表现出色。在车辆、行人和自行车类别上分别进行了详细评估,展示了RMP方法在不同场景下的表现。文章还通过随机掩盖历史时间戳来评估方法的鲁棒性,结果显示RMP方法在处理缺失历史数据方面显著优于MTR。

模拟agent挑战 SIM AGENTS CHALLENGE

1st:BehaviorGPT

Zikang Zhou, Haibo Hu, Xinhong Chen, Jianping Wang, Nan Guan, Kui Wu, Yung-Hui Li, Yu-Kai Huang, Chun Jason Xue - City University of Hong Kong, University of Victoria, Hon Hai Research Institute, Carnegie Mellon University, Mohamed bin Zayed University of Artificial Intelligence

链接:https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%20Sim%20Agents%20Challenge%20-%201st%20Place%20-%20BehaviorGPT.pdf

BehaviorGPT在自动驾驶领域展现了卓越性能,在Waymo开放模拟代理挑战中,其0.7473的现实性得分和1.4147的minADE得分令人瞩目,且仅使用3M模型参数。该技术强调自动驾驶系统安全性评估的重要性,通过模拟实现低成本、大规模的离线测试。BehaviorGPT利用仅解码器自回归模型提高数据和参数效率,模拟逼真的agent,对验证自动驾驶系统至关重要。

BehaviorGPT采用NP3方法解决因果混淆问题,通过轨迹补丁级别的推理(reason at the patch level)促进长范围交互建模(long-range interactions modeling),提高预测准确性。该模型还通过混合模型捕捉智能体行为的多样性,利用链式法则分解状态分布,进一步提升了多智能体系统行为预测的能力。此外,BehaviorGPT引入相对时空表示法(relative spatial-temporal positional embeddings),通过QCNet模型在空间和时间上对称地建模补丁,处理多代理交互和动态环境。同时,通过维护输入元素间的相对位置嵌入,有效保持空间-时间关系,提高代理的反应性和预测准确性。

总之,BehaviorGPT通过创新的架构和算法,为自动驾驶领域的研究与发展提供了新的思路和工具。其高性能的模拟和准确的预测能力,将有助于推动自动驾驶系统的进一步完善和应用。

2nd:VBD

Zhiyu Huang, Zixu Zhang, Jaime Fernández Fisac, Chen Lv - Nanyang Technological University, Princeton University

链接:https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%20Sim%20Agents%20Challenge%20-%202nd%20Place%20-%20VBD.pdf

本文介绍了一种名为Versatile Behavior Diffusion Model(VBD)的交通模拟框架,该框架旨在模拟智能体在复杂交通环境中的逼真且可控行为。VBD模型通过结合场景编码器(query-centric Transformer encoder)、去噪器(Transformer denoiser)和行为预测器(Transformer-based multi-modal marginal trajectory predictor),能够有效模拟多代理的联合行为(scene-level joint behaviors of agents),并在高度交互的交通场景下降低碰撞风险。该模型利用地图和代理的历史状态作为条件输入,通过去噪和可控采样技术生成高质量的交通场景。此外,VBD模型还采用了一种基于动态函数的代理行为分析方法,将代理行为转化为物理状态,为行为预测提供了有力工具。通过编码多源输入,包括代理历史、地图信息和交通灯状态,VBD模型能够在复杂环境中实现准确的决策和预测。此外,该模型还采用了一种改进的场景编码方法,通过共享GRU网络和基于查询的Transformer层,实现场景元素间相互关系的高效编码。在Waymo 2024 Sim Agents基准测试中,VBD模型表现出竞争性的性能,为智能交通系统的研究提供了有力支持。

3rd:TrafficBotsV1.5

Zhejun Zhang, Christos Sakaridis, Luc Van Gool - ETH Zurich

链接:https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%20Sim%20Agents%20Challenge%20-%203rd%20Place%20-%20TrafficBotsV1.5.pdf

TrafficBots V1.5是基于条件变分自编码器(CVAE, conditional variational autoencoder)和异构折线变换器(HPTR, Heterogeneous Polyline Transformer with Relative pose encoding)的先进交通代理闭环模拟基线方法。它通过为每个交通代理学习特定策略,根据历史数据预测其行动,并在Waymo OpenSim Agents Challenge 2024中取得显著成绩。V1.5引入共享决策策略,设定导航目的地和人格特性,并采用相对姿态编码和K-最近邻注意力模块(KNARPE, K-nearest Neighbor Attention with Relative Pose Encoding)优化Transformer性能。该方法摒弃了RNN,采用堆叠历史观测作为输入,结合PointNet处理时间数据,保留了HPTR的优势,同时提高了效率和准确性。通过计划性教师强制和采样场景过滤,TrafficBots V1.5在目标预测器上实现显著改进,尽管在交通灯状态预测方面存在局限,但整体性能通过多项优化措施得到提升。该方法为多代理交通模拟提供了新的可能性,并公开代码供研究者使用,为交通模拟领域的研究提供了有力基线方案。

三维语义分割挑战 3D SEMANTIC SEGMENTATION CHALLENGE

1st:PTv3-EX

Xiaoyang Wu, Xiang Xu, Lingdong Kong, Liang Pan, Ziwei Liu, Tong He, Wanli Ouyang, Hengshuang Zhao - The Univeristy of Hong Kong, Shanghai AI Laboratory, National University of Singapore, Nanyang Technological University

链接:https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%203D%20Sem%20Seg%20Challenge%20-%201st%20Place%20-%20PTv3-EX.pdf

在2024年Waymo开放数据集挑战赛中,Point Transformer V3 Extreme凭借其前沿的多帧训练(multi-frame training)和无裁剪点策略(no-clipping-point policy),在语义分割赛道中荣登榜首。该模型不仅通过即插即用训练和推理技术显著提升了性能,还通过详细的训练设置和策略优化,充分利用了Waymo高分辨率LiDAR扫描和全面标注数据的优势。Point Transformer V3 Extreme的成功展示了其在自动驾驶领域内的技术实力和创新能力,为3D感知技术的发展提供了新的方向。该模型通过优化backbone设计、引入数据增强技术和无裁剪点策略,提高了处理复杂现实世界环境数据的能力,为语义分割领域的研究和应用提供了有价值的参考。此外,本文还探讨了点云数据的序列化方法和多帧训练策略,强调了它们在提升点云处理性能中的关键作用。

2nd:MixSeg3D

Qing Wu - Marvell Technology

链接:https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%203D%20Sem%20Seg%20Challenge%20-%202nd%20Place%20-%20MixSeg3D.pdf

2024年Waymo开放数据集挑战赛中,MixSeg3D以其独特的3D语义分割解决方案荣获第二名。该方法融合了MinkUNet稀疏卷积网络和LaserMix、PolarMix两种3D数据增强策略,有效提升了模型在复杂LiDAR点云数据中的感知能力。MixSeg3D不仅克服了训练数据多样性不足的问题,还显著提高了模型的泛化性和鲁棒性,为自动驾驶技术的环境理解和导航提供了强有力的支持。MinkUNet以其高效的稀疏卷积操作和稳健的特征提取能力,在处理大规模LiDAR点云数据时表现出色。而LaserMix和PolarMix的引入,进一步增强了模型对未知数据的适应能力。MixSeg3D的成功不仅为自动驾驶领域带来了新的技术突破,也为未来的3D语义分割研究提供了新的思路和方法。

3rd:vFusedSeg3D

Osama Amjad, Ammad Nadeem - VisionRD

链接:https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%203D%20Sem%20Seg%20Challenge%20-%203rd%20Place%20-%20vFusedSeg3d.pdf

VFusedSeg3D是由VisionRD团队开发的多模态融合系统,其利用相机和LiDAR数据的互补性,通过精心设计的网络架构在3D感知和分割精度上取得了显著进步。该系统结合了相机的丰富语义信息和LiDAR的精确深度感知,通过两个并行特征提取流和创新的融合技术,实现了对环境的全面理解。在验证集上,VFusedSeg3D达到了72.46%的mIoU,树立了新的性能基准。

系统采用了DLA34作为图像侧的主干网络,并引入了改进的语义特征聚合模块(SFAM)和语义特征融合模块(SFFM)来有效结合LiDAR和相机的特征。由于计算资源限制,系统采用了分阶段训练策略,成功解决了高网格分辨率导致的内存溢出问题。此外,通过全局变换和多种图像增强技术,增强了模型的泛化能力。总的来说,VFusedSeg3D以其高效的网络结构和多模态融合技术,为需要精确环境感知的应用提供了理想解决方案,展现了在3D感知领域的重要突破。

占用率和流量预测 OCCUPANCY FLOW CHALLENGE

1st:DOPP

Haochen Liu, Zhiyu Huang, Wenhui Huang, Haohan Yang, Xiaoyu Mo, Hongyang Gao, Chen Lv - Nanyang Technological University

链接:https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%20Occupancy%20Flow%20Challenge%20-%201st%20Place%20-%20DOPP.pdf

本文提出并详细阐述了一种创新的DOPP系统及其MS-OccFormer模块,该模块通过多阶段对齐实现了高精度的占用流场预测,并结合了智能体边际运动预测的一致性意识。DOPP系统通过可微分的集成方式,有效提升了未来交通状态预测的精度,特别是在处理复杂交通场景时展现出强大的能力。MS-OccFormer模块则通过全局和局部交互,将占用预测和向后流预测与边缘预测特征相结合,进一步提升了预测精度。此外,该系统还采用了一种集成学习范式,持续更新预测目标,确保预测结果的连贯性和准确性。这些创新技术不仅为自动驾驶系统的安全运行提供了更为坚实的预测支持,同时也为处理多智能体预测中的一致性问题提供了新的解决方案。未来工作将围绕进一步优化预测性能,解决运动预测与占用预测不可解耦的挑战展开。

2nd:STNet

Gaeun Kim, Daeil Han, YeongJun Koh, Hanul Kim - Seoul National University of Science and Technology, Chungnam National University

链接:https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%20Occupancy%20Flow%20Challenge%20-%202nd%20Place%20-%20STNet.pdf

本文提出了一种创新的自动驾驶占用率和流量预测方法,该方法通过整合agent和静态特征,利用一维时间卷积和时空编码器构建多尺度特征图。该模型基于CAFormer-S18架构改造而来,通过空间和时间信息的融合以及多尺度聚合,有效处理包含时间维度的数据。解码器部分采用自回归设计,结合双线性插值和串联操作,以自回归方式预测未来帧。预测头部分利用卷积层和激活函数生成占用和流图,并通过多损失函数组合优化预测性能。该方法在Waymo开放数据集挑战中取得优异成果,充分展示了其在自动驾驶领域中的有效性。通过多尺度的特征提取和自回归的解码设计,该模型为自动驾驶的准确预测提供了强大的技术支持,对处理占用地图和流动场预测问题具有重要意义。

3rd:HGNET

Zhan Chen, Chen Tang, Lu Xiong - Tongji University

链接:https://storage.googleapis.com/waymo-uploads/files/research/2024%20Technical%20Reports/2024%20WOD%20Occupancy%20Flow%20Challenge%20-%203rd%20Place%20-%20HGNET.pdf

本文提出了一种创新的层次特征引导网络(HGNET, hierarchical feature guided network),用于复杂交通场景中多智能体行为的预测。HGNET基于Transformer架构,通过高效的特征提取和多模态交互建模,有效整合了视觉、历史轨迹和地图信息,显著提升了预测准确性。其中,特征引导注意力模块(FGAT)利用潜在引导效果,强化了特征间的相关性,而TimeSeries Memory框架则增强了预测的时间一致性和因果关系。HGNET在Waymo Open Motion Dataset 1上表现出色,尤其在占用流场轨迹预测方面。此外,该系统还通过LSTM和跨注意力Transformer编码器,全面捕获了交通代理与地图间的交互关系,进一步提升了预测性能。通过结合文本和视觉特征,以及引入层次特征引导解码器,HGNET为自动驾驶领域提供了有力的技术支持,尤其在处理被遮挡障碍物和提高预测连续性方面展现出巨大潜力。

#BEVGPT

BEVGPT展示自动驾驶『全知视角』,预测决策规划三合一!

预测、决策和运动规划对于自动驾驶至关重要。在大多数传统算法架构中,它们被视为单独的模块或组合成具有共享主干但独立任务头的多任务学习范例。然而,我们认为理想的算法是将它们整合到一个综合框架中,且这种整合过程不应受到复杂的输入表示(即输入解耦)和冗余框架设计的困扰。为了解决上述问题,我们重新思考了自动驾驶任务中各个模块的必要性,并将所需的模块纳入到极简的自动驾驶框架中。我们提出了BEVGPT,一种新的集成驾驶场景预测、决策和运动规划的生成式预训练模型。该模型以鸟瞰图像(BEV)作为唯一输入源,并根据周围的交通场景做出驾驶决策。最后通过基于优化的运动规划方法来保证驾驶轨迹的可行性和平滑性。

图片

▲图1|BEVGPT整体框架

如图所示,BEVGPT采用两阶段训练过程。首先,我们使用大量自动驾驶数据来训练生成式大模型。随后,使用自动驾驶仿真模拟器通过在线学习对模型进行微调。具体来说,预训练阶段的目标是学习驾驶场景预测和决策,即自动驾驶任务中的BEV生成和自车轨迹预测。该模型能够输出未来4秒内的决策轨迹,并在长达6秒内预测未来驾驶场景。接下来是在线微调阶段,通过在线学习的方式实现模型微调,从而保证符合动力学的运动规划和更为精确的BEV预测。在微调阶段,运动规划器被设计为自动驾驶车辆生成平滑且可行的轨迹。

■2.1 框架设计

我们从人类驾驶员的角度重新评估每个模块的必要性,以设计自动驾驶系统框架。首先,人类驾驶员对环境地图有先验的知识,比如在使用导航软件时,每条道路的结构和路口位置都比较明显。其次,人类驾驶员并不会显示地追踪周围的其他车辆,并预测它们的未来轨迹。相反,他们更关注的是预测的自车轨迹是否会被其他车辆所占据。然后,他们会做出相应地驾驶决策。基于上述思考,我们设计了一个极简的自动驾驶框架,即包括决策,运动规划和驾驶场景预测,而把目标跟踪以及他车运动预测模块去掉了。在该框架中,决策输出的是自车未来T=4秒内的位置,在motion planner进一步处理后生成一个符合动力学和平滑的轨迹。考虑到静态环境信息可以从高清地图轻松获取,我们更加关注包括车辆和行人在内的动态物体的精确预测。驾驶场景预测通过环境地图和动态物体预测的组合获得,如下图所示。

图片

▲图2|驾驶场景预测

■2.2 轨迹表示

我们采用分段多项式轨迹来表示我们的微分平坦输出,即和。为了在后续的motion planning模块中minimum Jerk,我们选择五次多项式表示。假设轨迹总共由段组成。在这种情况下,便可以表示为下面的多项式:

这里的表示轨迹的段数,每段具有相同的时间间隔。

■2.3 运动规划

在我们的轨迹规划问题中,自车的初始状态和末状态已知。同时,决策模块的输出应当被包含在未来的轨迹中。另外,分段多项式轨迹的连续性也需要得到保证。因此,我们的运动规划问题被表达为了如下的minimum Jerk问题:

在这里,我们将自车的初始状态和最终状态考虑在内,同时确保了两个相邻轨迹段之间的连续性和光滑性,并且考虑了最大速度和最大加速度的限制,以确保动力学的可行性。

■3.1 数据集

我们采用了Lyft Level 5 Dataset,这是一个由Houston等人于2021年提出的自动驾驶数据集,包含了超过1000个小时的驾驶数据,采集跨度4个月,采集车辆是由20辆车组成的车队。关于数据处理,我们从数据集中提取车辆姿态、语义BEV图像和静态环境地图图像。去除持续时间短于24秒(即240帧,时间间隔秒)的驾驶情景。然后将自车的未来目标位置作为决策训练的label。我们将每帧的车辆位置、当前BEV图像、下一帧BEV图像和下一帧环境地图图像记录下来作为训练数据集。

■3.2 模型架构

GPT体系结构在自然语言处理(NLP)领域取得了很大的进展,它通过添加因果自关注掩码来修改变压器体系结构,从而自动回归生成预测tokens。由于其强大的理解和泛化能力,我们采用GPT架构来处理复杂的自动驾驶任务和各种场景。我们的超参数如下表所示。

图片

▲表1|BEVGPT超参数

■3.3 预训练

在预训练阶段,BEVGPT进行了20个epochs的训练。为了提高模型的决策能力和预测能力,这里使用均方误差(MSE)作为Loss。

这里我们采用三角函数来平衡预测和决策的loss。

■3.4 在线微调

我们使用的是Woven Planet L5Kit进行自动驾驶仿真,以微调预训练模型。BEV输入模型后,输出未来时间间隔内的轨迹点。紧接着motion planner根据决策输出生成动态可行的轨迹,而后得到BEV的预测。回看上面的loss公式,模型要fine-tuning,需要地图的信息,这里我们开发了一种经验光栅化器(experience rasterizer),以帮助模型获得仿真驾驶场景的静态信息。这里的出发点是一旦知道静态全局地图、自车的初始世界坐标和世界坐标与光栅坐标之间的转换,就可以将所有车道和交叉口轻松映射到光栅化的BEV图像中。仿真器经过时间间隔的仿真后,就可以获得接下来BEV图像的真实数据。这部分的loss如下:

因为这里仿真器是按照预测的轨迹进行走的,所以轨迹那项的loss是0。我们使用Woven Planet L5Kit模拟器进行在线微调,以适应运动规划和精确的BEV生成。

我们采用以下指标来评估的模型的决策能力和运动规划能力:

●最终位移误差指标(FDE),指的是最终预测位置与参考位置之间的距离。

●平均位移误差指标(ADE),指的是时刻t之前所有预测位置与参考位置的均方误差。

●最终距离参考轨迹的距离指标(FDR),指的是时刻t预测位置与参考轨迹中最近点的距离。

●平均距离参考轨迹的距离指标(ADR),指的是时刻之前所有预测位置与参考轨迹中其最近位置的均方误差。

●L2误差(L2),在仿真过程中执行的轨迹和日志记录中的真实位置之间的均方误差。

●碰撞率(CR),它指的是模拟持续时间t内发生碰撞帧与全部帧的比例。

●越野率(OR),它指的是驶离道路帧数与全部帧的比例。判断指标定义为参考轨迹与自车之间的距离大于2米。

评价结果如下表所示,结果显示,我们提出的BEVGPT在决策和规划任务中优于许多现有的方案。

图片

▲表2|实验结果

未来我们将在极端情况下测试所提出方法的鲁棒性,并进一步改进框架。未来研究的一个有潜力的方向是提高BEVGPT模型的实时性能,将其部署在自动驾驶汽车上。我们的目标是带来一个更安全、更可靠、更高效的自动驾驶框架。

#盘点CLIP系列模型泛化能力提升方面的研究

CLIP(Contrastive Language-Image Pre-training)系列模型自推出以来,在多个领域展现了强大的跨模态泛化能力,比如在跨模态检索、图像搜索、图像识别与分类等方面取得了显著的研究成果。CLIP模型在预训练阶段学习到的通用知识可以迁移到特定的下游任务中,这有助于在缺乏大量标注数据的情况下,提升模型在新任务上的性能。CLIP的泛化能力使其能够跨足不同的领域和任务,如视频行为识别,即使在没有针对特定任务进行过训练的情况下,也能够表现出良好的性能。

为了将CLIP扩展为多模态模型,从而能够适用于多模态任务,文章对CLIP进行了多种“改造”:添加模态特定的编码器从而将多模态信息输入CLIP、在CLIP多模态编码器中使用适配器、添加投影层将不同模态的特征映射到一个共同的特征空间、使用多任务解码器同时处理多种类型的任务、利用掩码语言模型来增强文本编码器对其他模态描述的理解、设计有效的融合策略来结合不同模态的信息、利用注意力机制来选择性地关注不同模态中与任务最相关的部分等。通过以上方法,CLIP可以被扩展为一个强大的多模态模型,能够处理包括图像、视频、文本和音频在内的多种数据类型,进而在多模态学习和理解任务中展现出强大的泛化能力。

1 局部物体识别

重新思考low-shot CLIP 适配中的视觉内容细化

Jinda Lu, Shuo Wang, Yanbin Hao, Haifeng Liu, Xiang Wang, Meng Wang

​​https://arxiv.org/abs/2407.14117​​

文章总结

最近的研究表明可以通过促进知识有效转移来提高对比视觉语言预训练(CLIP)的low-shot能力。然而,对原有模型的调整方法通常是在输入图像的全局视图上操作的,因此对图像的部分局部细节的感知是有偏差的。为了解决这个问题,我们提出了在测试阶段的适应计算之前进行视觉内容细化(VCR, Visual Content Refinement)。具体来说,我们首先将测试图像分解为不同的比例,以将特征提取器的注意力转移到图像的细节上。然后,我们选择每个尺度中具有最大预测边际(max prediction margin)的图像视图,以过滤掉嘈杂的图像视图,其中预测边际是根据预训练的 CLIP 模型计算的。最后,我们根据所选图像视图的比例合并其内容,以构建新的具有鲁棒性的表示。因此,合并的内容可以直接用于帮助适配器专注于全局和局部部分,而无需任何额外的训练参数。将本文的方法应用于具有 13 个数据集的 3 个低样本基准任务,取得了比最先进方法的显著改进。例如,与少样本分类任务的基线(Tip-Adapter)相比,本文的方法在免训练和需要训练的设置中平均实现了约2%的性能改进。

模型解析

  • 本文的模型聚焦于图像多尺度分解,即将测试图像分解成不同的尺度(或称为“视图”),旨在使特征提取器能够关注到图像中的细节信息,通过多尺度分解,不同尺度的图像视图能够捕捉到从全局到局部的多种特征。
  • 在每个尺度中选择最具代表性的图像视图,即那些对分类任务贡献最大的视图,以过滤掉噪声和冗余信息:使用预训练的 CLIP 模型对每个图像视图进行预测,并计算其预测边际。预测边际反映了模型对特定类别的确信程度,通常通过最优分类得分与次优得分的差值来衡量。在每个尺度中,选择具有最大预测边际的图像视图。
  • 将不同尺度下选出的图像视图合并成一个新的表示,该表示既包含全局信息也包含重要的局部细节:对于不同尺度下的细化特征,通过学习一个权重向量来实现,该向量对不同尺度的特征给予不同的重视程度。将这些加权后的特征进行合并,即将多个尺度的特征按照权重相加,形成一个统一的表示。
  • 这个新的表示可以用于免训练适配器(training-free adapter)或提示学习器(prompt learner),帮助模型更有效地理解和适应不同的任务和数据。

该模型框架通过图像的多尺度分解、基于预测边际的图像视图选择和图像多视图内容的合并,有效地提升了低样本 CLIP 适配的性能。

SAM2CLIP2SAM:3D CT 扫描分割的视觉语言模型

Dimitrios Kollias, Anastasios Arsenos, James Wingate, Stefanos Kollias

​​https://arxiv.org/abs/2407.15728​​

文章总结

本文提出了一种图像有效分割的新方法,可以集成到任何模型和方法中,对用于 Covid-19 检测的医学图像(3D 胸部 CT 扫描)进行分类。本文的方法包括视觉语言模型的组合,这些模型对 CT 扫描进行分割,然后将其馈送到名为 RACNet 的深度神经架构中,用于 Covid-19 检测。特别是,引入了一个名为 SAM2CLIP2SAM 的新框架进行分割,该框架利用 Segment Anything Model (SAM) 和 Contrastive Language-Image Pre-Training (CLIP) 的优势,在 CT 扫描中准确分割右肺和左肺,随后将这些分割输出输入 RACNet,用于对 COVID-19 和非 COVID-19 病例进行分类。首先,SAM 为 CT 扫描中的每个切片生成多个基于零件的分割模板;然后 CLIP 仅选择与感兴趣区域 (ROI, regions of interest) 相关的掩码,即右肺和左肺;最后,SAM 被赋予这些 ROI 作为提示,并为肺部生成最终的分割掩码。实验使用了两个 Covid-19 注释的数据库,这些数据库说明了当我们的方法用于 CT 扫描分割时实现了性能的改进。

模型解析

  • 文章提出的模型框架名为SAM2CLIP2SAM。首先使用Segment Anything Model(SAM)对CT扫描中的每一层(slice)进行初步分割,生成多个基于部分的分割掩码(part-based segmentation masks)。
  • 利用Contrastive Language-Image Pre-Training(CLIP)模型从SAM生成的多个分割掩码中选择与感兴趣区域(ROIs),即右肺和左肺,相关的掩码。CLIP通过对比图像和文本描述之间的相似性来实现这一目标,它能够识别出与“右肺”和“左肺”描述最匹配的分割掩码。再将CLIP选择的ROIs作为提示(prompts)重新输入给SAM,SAM根据这些ROIs生成针对右肺和左肺的最终精细化分割掩码。
  • 这些分割后的图像数据被输入到RACNet中,RACNet是一个专门为处理3D CT扫描数据设计的深度神经网络架构,包括一个卷积神经网络(CNN)和一个递归神经网络(RNN)。RACNet通过处理这些分割后的图像数据,提取相关特征,并基于这些特征对输入进行COVID-19和非COVID-19病例的分类。

该框架的创新之处在于它巧妙地结合了SAM在广泛对象分割方面的强大能力和CLIP在理解图像与文本之间关系方面的优势,实现了对CT扫描中特定区域(如肺部)的精确分割。随后,通过RACNet对分割后的图像数据进行深入分析,提高了COVID-19诊断的准确性和可靠性。

2 图像生成

DiffX:指导布局进行跨模态生成建模

Zeyu Wang, Jingyu Lin, Yifei Qian, Yi Huang, Shicen Tian, Bosong Chai, Juncan Deng, Lan Du, Cunjian Chen, Yufei Guo, Kejie Huang

​​https://arxiv.org/abs/2407.15488​​

文章总结

扩散模型在文本驱动和布局驱动的图像生成方面取得了重大进展。但是,大多数扩散模型仅限于生成可见的 RGB 图像。事实上,人类对世界的感知因各种观点而丰富,包括色差、热照明和深度信息。本文介绍了一种用于一般布局引导的跨模态“RGB+X”生成的新型扩散模型,称为DiffX。首先使用LLaVA模型构建带有文本描述的跨模态图像数据集,并辅以手动校正。值得注意的是,DiffX 提供了一个简单而有效的跨模态生成建模管道,该管道在双路径变分自动编码器 (DP-VAE) 的推动下,在模态共享的潜在空间中进行扩散和去噪过程。此外,结合了门控交叉注意力机制来连接布局和文本条件,利用 Long-CLIP 嵌入长字幕以增强用户指导。通过广泛的实验,DiffX在各种布局类型的指导下,在三个RGB+X数据集(FLIR、MFNet和COME15K)上展示了跨模态生成的鲁棒性和灵活性。它还显示了自适应生成“RGB+X+Y”或更多样化模态的潜力。

模型解析

  • 文章首先使用LLaVA模型(一种用于图像标注的模型)来自动生成跨模态图像数据集的文本描述,并辅以手动校正。
  • 然后利用DiffX模型进行跨模态生成建模,该过程在模态共享的潜在空间中进行扩散和去噪。模型的核心是双路径变分自编码器(DP-VAE),它允许在不同模态(如RGB和X)之间共享潜在表示,从而支持跨模态生成。
  • 为了连接布局和文本条件,DiffX模型结合了门控交叉注意力机制,有效地将布局信息和文本信息相结合,使模型能够更准确地理解用户意图和生成指导。为了进一步增强用户指导,DiffX模型利用Long-CLIP来嵌入长字幕,从而能够处理更长的文本描述,并将其转换为有效的特征表示,这些特征表示被用于指导跨模态图像的生成过程。

DiffX模型通过结合先进的数据集构建方法、跨模态生成建模、门控交叉注意力机制和Long-CLIP嵌入技术,实现了有效的跨模态“RGB+X”图像生成,展示了在更复杂的跨模态生成任务(如“RGB+X+Y”或更多样化的模态)中的潜力。

X-Former:MLLM的统一对比和重构学习

Sirnam Swetha, Jinyu Yang, Tal Neiman, Mamshad Nayeem Rizve, Son Tran, Benjamin Yao, Trishul Chilimbi, Mubarak Shah

​​https://arxiv.org/abs/2407.13851​​

文章总结

多模态大型语言模型 (MLLM) 的最新进展通过将视觉感知能力集成到大型语言模型 (LLM) 中,彻底改变了视觉语言理解领域。该领域的流行趋势涉及使用源自视觉语言对比学习 (CL) 的视觉编码器,在捕捉整体表征方面表现出专业知识,同时在捕捉详细的局部模式方面面临困难。这项工作专注于通过结合通过掩码图像建模 (MIM) 获得的高频和详细视觉表示与 CL 捕获的语义丰富的低频表示增强 MLLM 的视觉表示。为了实现这一目标,本文推出了X-Former,这是一种轻量级Transformer模块,旨在通过创新的相互作用机制来利用CL和MIM的互补优势。具体来说,X-Former 首先从两个冻结的视觉编码器(即 CLIP-ViT(基于 CL)和 MAE-ViT(基于 MIM))中启动视觉语言表示学习和多模态到多模态生成学习。它进一步利用冻结的 LLM 进行视觉到语言的生成学习,以确保 X-Former 的视觉特征可以被 LLM 解释。为了证明我们方法的有效性,我们评估了其在需要详细视觉理解的任务中的性能。广泛的评估表明,X-Former 在涉及 GQA 数据集中结构和语义类别的视觉推理任务中表现出色。细粒度视觉感知基准评估进一步证实了其在视觉理解方面的卓越能力。

模型解析

  • 首先利用两个冻结的视觉编码器(CLIP-ViT和MAE-ViT)来引导视觉语言表示学习,CLIP-ViT通过视觉语言对比学习策略进行预训练,而MAE-ViT通过随机掩码图像建模机制进行训练,两个视觉编码器从输入图像文本对中提取视觉特征。为了整合这两种视觉编码器的信息,并同时学习全局和局部信息,引入了一个轻量级的Transformer模块,称为X-Former,它扩展了Q-Former来整合全局和局部信息。
  • X-Former的输入为一组可学习的query Z,输入文本Tk和图像特征(C, M)。第一个交叉注意块采用MAE特征(M)作为query,Q-Former输出(Zq)作为key和value,通过集成来自Q-Former的全局语义信息来对齐和增强M,从而丰富了MAE特征(M’)。随后,M’通过交叉注意整合全局和局部信息,将Q-Former输出(Zq)增强到Z '。
  • 增强查询(Z ')根据图像文本匹配(ITM)、图像文本对比(ITC)和图像文本生成(ITG)损失进行了优化。最后,将M′传递给冻结的MAE解码器来重建被屏蔽的补丁。

X-Former是一个轻量级的Transformer模块,它设计了一种创新的交互机制来利用对比学习(CL)和掩码图像建模(MIM)的互补优势。通过这种机制,X-Former能够有效地融合CLIP-ViT和MAE-ViT的输出,并生成既包含全局语义信息又包含详细局部特征的视觉表示。

3 音频生成

!盲文也能玩:盲文转语音生成器-基于 CLIP 和 Fastspeech2 联合微调的音频生成

Chun Xu, En-Wei Sun

​​https://arxiv.org/abs/2407.14212​​

文章总结

越来越多的中国人受到不同程度的视觉障碍的困扰,这使得视野中的单个图像或视频帧与表达相同信息的音频之间的模态转换成为研究热点。OCR+Vocoder 和 Im2Wav 等深度学习技术以自监督的方式实现英语音频合成或图像到声音的匹配。然而,用于培训的音频数据有限,英语对于不同教育水平的视障人士来说并不通用。因此,为了解决数据量和语言适用性问题,提高视障人群的阅读效率,构建了一套基于中文语境的图像转语音框架CLIP-KNN-Fastspeech2。该框架整合了多个基础模型,并采用了自主预训练和联合微调的策略。首先,分别在MUGE和Baker两个公共数据集上对中文CLIP和Fastspeech2文本转语音模型进行了预训练,并验证了它们的收敛性。随后,使用自建盲文图像数据集进行联合微调。在VGGSound、Flickr8k、ImageHear等多个公共数据集和自建盲文数据集BIT-DP上的实验结果表明,该模型在BLEU4、FAD(Fréchet Audio Distance)、WER(Word Error Ratio)等客观指标上均有所提升,甚至推理速度也有所提升。这验证了构建的模型在有限的数据下仍然具有合成高质量语音的能力,也证明了整合多个基础模型的联合训练策略的有效性。

模型解析

  • CLIP-KNN-Fastspeech2 模型架构分为两个主要阶段:图像到文本阶段(image-to-text)和文本到语音阶段(text-to-speech)。
  • 图像到文本阶段使用Chinese CLIP模型进行自监督学习和对比学习,在MUGE等公开数据集上进行预训练,学习图像与文本对的特征;再基于Chinese CLIP模型提取的特征,利用KNN算法从图像中检索出文本信息,KNN根据正负样本之间的特征差异来提取文本。
  • 文本到语音阶段使用Fastspeech2 文本转语音模型,在Baker等公开数据集上进行预训练,学习文本到语音的映射关系。输入上一阶段生成的文本,生成对应的mel频谱图,并将其解码为语音。

最后使用自建的盲文图像数据集(Braille dataset)进行联合微调。

4 动作识别

M2-CLIP:一种用于视频动作识别的多模态、多任务自适应框架

Mengmeng Wang, Jiazheng Xing, Boyuan Jiang, Jun Chen, Jianbiao Mei, Xingxing Zuo, Guang Dai, Jingdong Wang, Yong Liu

​​https://arxiv.org/abs/2401.11649​​

文章总结

近年来,大规模视觉语言预训练模型(如CLIP)的兴起,再加上参数高效微调(PEFT)技术,在视频动作识别领域引起了极大的关注。然而,流行的方法倾向于优先考虑强大的监督性能,代价是在迁移过程中损害模型的泛化能力。本文引入了一种名为M2-CLIP的新型多模态、多任务CLIP适应框架来解决这些挑战,同时保持高监督性能和鲁棒可移植性。首先,为了增强单个模态体系结构,我们在可视化和文本分支中引入了多模态适配器。具体来说,文章设计了一种新的视觉TED适配器,它执行全局时间增强和局部时间差分建模,以提高视觉编码器的时间表示能力。此外,我们采用文本编码器适配器来加强语义标签信息的学习。其次,文章设计了一个具有丰富监督信号集的多任务解码器,以熟练地满足在多模态框架内对强监督性能和泛化的需求。实验结果验证了我们的方法的有效性,在监督学习中表现出卓越的性能,同时在零样本场景中保持了很强的泛化。

模型解析

  • M2-CLIP框架输入为视频V和文本标签y,视频经过视频编码器处理后,其特征在时间维度上进行平均池化,得到最终的视频表示v。文本标签经过文本编码器处理后,得到文本表示w。输出为通过多任务解码器得到的分类结果,可以用于监督学习任务和零样本分类任务。
  • M2-CLIP引入了多模态适配器,包括一个视觉TED-Adapter,用于改善视觉编码器的时间表示能力,来实现全局时间增强(Temporal Enhancement)和局部时间差异(local temporal Difference)建模;以及一个文本编码器适配器,用于加强学习语义标签信息。
  • M2-CLIP的多任务解码器包括对比学习头(Contrastive Learning Head),用于对齐视频和文本表示的成对表示,使用对比学习损失进行优化;跨模态分类头(Cross-Modal Classification Head, CMC),用于突出跨模态特征的判别能力,通过将问题转化为1-C分类任务来增强跨模态相似性分数;跨模态掩码语言模型头(Cross-Modal Masked Language Modeling Head, CMLM),在文本分支的最后一层设计,促进视觉特征聚焦于动作动词的识别,使用BERT掩码语言模型头来预测掩码词;视觉分类头(Visual Classification Head, VC),在视觉分支末端引入,用于增强不同类别视频特征的区分度,使用线性层进行分类。

M2-CLIP框架能够在保持高监督性能的同时,实现强大的零样本泛化能力。这得益于模型的多模态适配器和多任务解码器,它们共同作用于视频和文本的联合表示学习,并通过不同的学习任务来提升模型的语义对齐和类别区分能力。

细粒度知识图谱驱动的视频语言学习,用于动作识别

Rui Zhang, Yafen Lu, Pengli Ji, Junxiao Xue, Xiaoran Yan

​​https://arxiv.org/abs/2407.14146​​

文章总结

最近的工作已经探索了视频动作识别作为视频-文本匹配问题,并提出了几种基于大规模预训练视觉语言模型的有效方法。然而,这些方法主要在粗粒度的层面上运行,而没有通过利用动作和身体运动之间的细粒度语义联系来对动作概念进行详细的语义理解。为了解决这一差距,我们提出了一个由知识图谱指导的对比视频语言学习框架,称为KG-CLIP,它将结构化信息整合到视频领域的CLIP模型中。具体来说,我们通过基于组合学习的解析动作,构建了一个由多粒度概念组成的多模态知识图谱。通过实现三元编码器偏差补偿来自适应优化实体距离函数中的边际,我们的模型旨在改善知识图谱中实体的对齐,以更好地适应复杂的关系学习。这允许通过适应图形组件之间的细微关联来增强视频动作识别功能。我们在Kinetics-TPS(一个大规模的动作解析数据集)上全面评估了KG-CLIP,证明了其与竞争基线相比的有效性。特别是,我们的方法在样本帧少或训练数据有限的情况下,在动作识别方面表现出色,表现出优异的数据利用和学习能力。

模型解析

  • KG-CLIP通过解析视频内容(如动作、场景、物体等)和相关的文本描述(如动作标签、句子描述等),构建了一个多模态知识图谱。这个图谱不仅包含了视频中的视觉元素(如动作、身体部位的运动),还包含了它们之间的语义关系和上下文信息(如动作描述、概念标签等)。在构建好知识图谱后,KG-CLIP将其与CLIP模型进行融合。通过扩展CLIP模型的输入层,使其能够接收知识图谱中的结构化信息(如实体嵌入、关系向量等),以在视频领域实现更高效的视频-文本匹配
  • 然后利用CLIP模型的视觉编码器部分,从视频中提取出丰富的视觉特征,包括视频中的基本元素(如颜色、纹理、形状等),及更高级别的语义信息(如动作、场景等)。
  • KG-CLIP用一个三元编码器捕捉三元组中的实体和关系信息,它接收知识图谱中的三元组作为输入,并输出每个实体和关系的向量表示(如<头实体, 关系, 尾实体>)。这些向量表示随后被用于计算实体之间的距离和相似性。
  • KG-CLIP引入了偏差补偿机制,根据实体的具体特征和它们之间的关系,动态调整距离函数中的参数。这样KG-CLIP能够更准确地衡量实体之间的相似性和差异性,从而提高模型的整体性能。

KG-CLIP通过一系列创新性的设计(如知识图谱构建、三元编码器实现、偏差补偿机制等),成功地将结构化信息整合到CLIP模型中,并在视频动作识别等任务中取得了显著的性能提升。

5 零样本异常检测

AnomalyCLIP:用于零样本异常检测的对象识别提示学习

Qihang Zhou, Guansong Pang, Yu Tian, Shibo He, Jiming Chen

​​https://arxiv.org/abs/2310.18961​​

文章总结

最近,大型预训练视觉语言模型 (VLM),例如 CLIP,在包括异常检测在内的各种视觉任务中展示了强大的零样本识别能力。然而,它们的零样本异常检测(ZSAD)性能较弱,因为VLM更侧重于对前景对象(foreground objects)的类语义进行建模,而不是图像中的异常/正常性(abnormality/normality)。本文引入了一种新的方法,即AnomalyCLIP,使CLIP在不同领域中实现准确的ZSAD。AnomalyCLIP 的关键是学习与对象无关的文本提示,这些文本提示会捕获图像中的一般正常性和异常性,而不管其前景对象如何。这使我们的模型能够专注于异常图像区域而不是对象语义,从而能够对不同类型的对象进行广义正常性和异常识别。在17个真实世界异常检测数据集上的大规模实验表明,AnomalyCLIP在各种缺陷检测和医学成像领域的高度多样化的类别语义数据集中实现了卓越的零样本检测和分割异常性能。

模型解析

  • AnomalyCLIP设计了两种通用的与对象无关文本提示(Object-Agnostic Text Prompts)模板:一种用于正常性(normality),另一种用于异常性(abnormality)。这些提示模板不包含具体对象的语义,而是专注于捕获图像中的异常模式,无论前景对象是什么。
  • 然后进行全局上下文优化和局部上下文优化:通过交叉熵损失函数,将对象无关的文本嵌入与辅助数据中正常/异常图像的视觉嵌入进行匹配,以捕获全局特征中的正常/异常语义。通过焦点损失(Focal Loss)和Dice损失,优化文本提示以关注视觉编码器中间层的细粒度、局部异常区域。
  • 通过在CLIP文本编码器的每一层添加可学习的标记嵌入(token embeddings),来精细化原始文本空间,使其更适合异常检测任务。通过引入对角突出的注意力图(Diagonally Prominent Attention Map, DPAM)来改进局部视觉空间,使得注意力图更加关注局部视觉语义,从而提高异常检测的准确性。AnomalyCLIP整合了来自视觉编码器多个中间层的特征,以提供更多的局部视觉细节,增强模型对异常区域的识别能力。

AdaCLIP:使用混合可学习提示的自适应CLIP用于零样本异常检测

Yunkang Cao, Jiangning Zhang, Luca Frittoli, Yuqi Cheng, Weiming Shen, Giacomo Boracchi

​​https://arxiv.org/abs/2407.15795​​

文章总结

零样本异常检测(ZSAD)的目标是从任意新颖的类别中识别图像中的异常。本研究引入AdaCLIP用于ZSAD任务,利用预训练的视觉语言模型(VLM)CLIP。AdaCLIP将可学习的提示整合到CLIP中,并通过在辅助注释的异常检测数据上进行训练来优化它们。AdaCLIP引入了两种类型的可学习提示:静态提示和动态提示。静态提示在所有图像中共享,用于初步调整CLIP以适应ZSAD。相比之下,为每个测试图像生成动态提示,为CLIP提供动态自适应功能。静态和动态提示的组合称为混合提示,可提高ZSAD性能。在工业和医疗领域的14个真实世界的异常检测数据集上进行的广泛实验表明,AdaCLIP优于其他ZSAD方法,可以更好地推广到不同的类别甚至领域。最后,我们的分析强调了多样化辅助数据和优化提示对于提高泛化能力的重要性。

模型解析

  • AdaCLIP引入了两种类型的提示——静态提示(Static Prompts)和动态提示(Dynamic Prompts)。静态提示在所有图像中共享,它们在训练过程中从辅助数据中学习,用于初步调整CLIP模型以适应ZSAD任务。动态提示是针对每个测试图像生成的,它们提供了模型对不同图像的动态适应能力。将静态和动态提示结合起来,形成混合提示,这样可以提高模型对新类别图像的异常检测性能。
  • 为了解决CLIP原始架构中图像嵌入(Patch Embeddings)与文本嵌入维度不匹配的问题,AdaCLIP添加了一个投影层来对齐这些嵌入的维度,并通过引入偏差的线性层增加了一些可学习的参数,以进一步微调CLIP。
  • AdaCLIP还引入了混合语义融合模块(Hybrid Semantic Fusion, HSF)用于改善像素级别的异常检测。首先AdaCLIP利用CLIP模型的不同层次的输出来生成异常图(Anomaly Maps,基于图像嵌入(Patch Embeddings)和文本嵌入(Text Embeddings)之间的余弦相似度计算得到。每个层次的异常图反映了图像中不同区域的异常程度。然后混合语义融合模块使用KMeans++算法对来自不同层次的异常图中的嵌入进行聚类。这些聚类假设代表了图像中的不同区域,其中具有最高平均异常分数的聚类可能对应于异常区域。最后将这些异常图融合成一个最终的预测,从而更准确地定位和识别图像中的异常区域。

综上,AdaCLIP通过计算图像嵌入和文本嵌入之间的余弦相似度来确定异常分数,这些分数表示图像及其像素是否正常或异常。

CLIP(Contrastive Language-Image Pre-training)系列模型自推出以来,在多个领域展现了强大的跨模态泛化能力,比如在跨模态检索、图像搜索、图像识别与分类等方面取得了显著的研究成果。CLIP模型在预训练阶段学习到的通用知识可以迁移到特定的下游任务中,这有助于在缺乏大量标注数据的情况下,提升模型在新任务上的性能。CLIP的泛化能力使其能够跨足不同的领域和任务,如视频行为识别,即使在没有针对特定任务进行过训练的情况下,也能够表现出良好的性能。本文总结了CLIP的几大经典应用场景,并梳理了近期发布的一些公众:在局部物体识别、图像生成、音频生成、动作识别和零样本异常检测多个领域的泛化能力。

为了将CLIP扩展为多模态模型,从而能够适用于多模态任务,文章对CLIP进行了多种“改造”:添加模态特定的编码器从而将多模态信息输入CLIP、在CLIP多模态编码器中使用适配器、添加投影层将不同模态的特征映射到一个共同的特征空间、使用多任务解码器同时处理多种类型的任务、利用掩码语言模型来增强文本编码器对其他模态描述的理解、设计有效的融合策略来结合不同模态的信息、利用注意力机制来选择性地关注不同模态中与任务最相关的部分等。通过以上方法,CLIP可以被扩展为一个强大的多模态模型,能够处理包括图像、视频、文本和音频在内的多种数据类型,进而在多模态学习和理解任务中展现出强大的泛化能力。

1 局部物体识别

重新思考low-shot CLIP 适配中的视觉内容细化

Jinda Lu, Shuo Wang, Yanbin Hao, Haifeng Liu, Xiang Wang, Meng Wang

​​https://arxiv.org/abs/2407.14117​​

文章总结

最近的研究表明可以通过促进知识有效转移来提高对比视觉语言预训练(CLIP)的low-shot能力。然而,对原有模型的调整方法通常是在输入图像的全局视图上操作的,因此对图像的部分局部细节的感知是有偏差的。为了解决这个问题,我们提出了在测试阶段的适应计算之前进行视觉内容细化(VCR, Visual Content Refinement)。具体来说,我们首先将测试图像分解为不同的比例,以将特征提取器的注意力转移到图像的细节上。然后,我们选择每个尺度中具有最大预测边际(max prediction margin)的图像视图,以过滤掉嘈杂的图像视图,其中预测边际是根据预训练的 CLIP 模型计算的。最后,我们根据所选图像视图的比例合并其内容,以构建新的具有鲁棒性的表示。因此,合并的内容可以直接用于帮助适配器专注于全局和局部部分,而无需任何额外的训练参数。将本文的方法应用于具有 13 个数据集的 3 个低样本基准任务,取得了比最先进方法的显著改进。例如,与少样本分类任务的基线(Tip-Adapter)相比,本文的方法在免训练和需要训练的设置中平均实现了约2%的性能改进。

模型解析

  • 本文的模型聚焦于图像多尺度分解,即将测试图像分解成不同的尺度(或称为“视图”),旨在使特征提取器能够关注到图像中的细节信息,通过多尺度分解,不同尺度的图像视图能够捕捉到从全局到局部的多种特征。
  • 在每个尺度中选择最具代表性的图像视图,即那些对分类任务贡献最大的视图,以过滤掉噪声和冗余信息:使用预训练的 CLIP 模型对每个图像视图进行预测,并计算其预测边际。预测边际反映了模型对特定类别的确信程度,通常通过最优分类得分与次优得分的差值来衡量。在每个尺度中,选择具有最大预测边际的图像视图。
  • 将不同尺度下选出的图像视图合并成一个新的表示,该表示既包含全局信息也包含重要的局部细节:对于不同尺度下的细化特征,通过学习一个权重向量来实现,该向量对不同尺度的特征给予不同的重视程度。将这些加权后的特征进行合并,即将多个尺度的特征按照权重相加,形成一个统一的表示。
  • 这个新的表示可以用于免训练适配器(training-free adapter)或提示学习器(prompt learner),帮助模型更有效地理解和适应不同的任务和数据。

该模型框架通过图像的多尺度分解、基于预测边际的图像视图选择和图像多视图内容的合并,有效地提升了低样本 CLIP 适配的性能。

SAM2CLIP2SAM:3D CT 扫描分割的视觉语言模型

Dimitrios Kollias, Anastasios Arsenos, James Wingate, Stefanos Kollias

​​https://arxiv.org/abs/2407.15728​​

文章总结

本文提出了一种图像有效分割的新方法,可以集成到任何模型和方法中,对用于 Covid-19 检测的医学图像(3D 胸部 CT 扫描)进行分类。本文的方法包括视觉语言模型的组合,这些模型对 CT 扫描进行分割,然后将其馈送到名为 RACNet 的深度神经架构中,用于 Covid-19 检测。特别是,引入了一个名为 SAM2CLIP2SAM 的新框架进行分割,该框架利用 Segment Anything Model (SAM) 和 Contrastive Language-Image Pre-Training (CLIP) 的优势,在 CT 扫描中准确分割右肺和左肺,随后将这些分割输出输入 RACNet,用于对 COVID-19 和非 COVID-19 病例进行分类。首先,SAM 为 CT 扫描中的每个切片生成多个基于零件的分割模板;然后 CLIP 仅选择与感兴趣区域 (ROI, regions of interest) 相关的掩码,即右肺和左肺;最后,SAM 被赋予这些 ROI 作为提示,并为肺部生成最终的分割掩码。实验使用了两个 Covid-19 注释的数据库,这些数据库说明了当我们的方法用于 CT 扫描分割时实现了性能的改进。

模型解析

  • 文章提出的模型框架名为SAM2CLIP2SAM。首先使用Segment Anything Model(SAM)对CT扫描中的每一层(slice)进行初步分割,生成多个基于部分的分割掩码(part-based segmentation masks)。
  • 利用Contrastive Language-Image Pre-Training(CLIP)模型从SAM生成的多个分割掩码中选择与感兴趣区域(ROIs),即右肺和左肺,相关的掩码。CLIP通过对比图像和文本描述之间的相似性来实现这一目标,它能够识别出与“右肺”和“左肺”描述最匹配的分割掩码。再将CLIP选择的ROIs作为提示(prompts)重新输入给SAM,SAM根据这些ROIs生成针对右肺和左肺的最终精细化分割掩码。
  • 这些分割后的图像数据被输入到RACNet中,RACNet是一个专门为处理3D CT扫描数据设计的深度神经网络架构,包括一个卷积神经网络(CNN)和一个递归神经网络(RNN)。RACNet通过处理这些分割后的图像数据,提取相关特征,并基于这些特征对输入进行COVID-19和非COVID-19病例的分类。

该框架的创新之处在于它巧妙地结合了SAM在广泛对象分割方面的强大能力和CLIP在理解图像与文本之间关系方面的优势,实现了对CT扫描中特定区域(如肺部)的精确分割。随后,通过RACNet对分割后的图像数据进行深入分析,提高了COVID-19诊断的准确性和可靠性。

2 图像生成

DiffX:指导布局进行跨模态生成建模

Zeyu Wang, Jingyu Lin, Yifei Qian, Yi Huang, Shicen Tian, Bosong Chai, Juncan Deng, Lan Du, Cunjian Chen, Yufei Guo, Kejie Huang

​​https://arxiv.org/abs/2407.15488​​

文章总结

扩散模型在文本驱动和布局驱动的图像生成方面取得了重大进展。但是,大多数扩散模型仅限于生成可见的 RGB 图像。事实上,人类对世界的感知因各种观点而丰富,包括色差、热照明和深度信息。本文介绍了一种用于一般布局引导的跨模态“RGB+X”生成的新型扩散模型,称为DiffX。首先使用LLaVA模型构建带有文本描述的跨模态图像数据集,并辅以手动校正。值得注意的是,DiffX 提供了一个简单而有效的跨模态生成建模管道,该管道在双路径变分自动编码器 (DP-VAE) 的推动下,在模态共享的潜在空间中进行扩散和去噪过程。此外,结合了门控交叉注意力机制来连接布局和文本条件,利用 Long-CLIP 嵌入长字幕以增强用户指导。通过广泛的实验,DiffX在各种布局类型的指导下,在三个RGB+X数据集(FLIR、MFNet和COME15K)上展示了跨模态生成的鲁棒性和灵活性。它还显示了自适应生成“RGB+X+Y”或更多样化模态的潜力。

模型解析

  • 文章首先使用LLaVA模型(一种用于图像标注的模型)来自动生成跨模态图像数据集的文本描述,并辅以手动校正。
  • 然后利用DiffX模型进行跨模态生成建模,该过程在模态共享的潜在空间中进行扩散和去噪。模型的核心是双路径变分自编码器(DP-VAE),它允许在不同模态(如RGB和X)之间共享潜在表示,从而支持跨模态生成。
  • 为了连接布局和文本条件,DiffX模型结合了门控交叉注意力机制,有效地将布局信息和文本信息相结合,使模型能够更准确地理解用户意图和生成指导。为了进一步增强用户指导,DiffX模型利用Long-CLIP来嵌入长字幕,从而能够处理更长的文本描述,并将其转换为有效的特征表示,这些特征表示被用于指导跨模态图像的生成过程。

DiffX模型通过结合先进的数据集构建方法、跨模态生成建模、门控交叉注意力机制和Long-CLIP嵌入技术,实现了有效的跨模态“RGB+X”图像生成,展示了在更复杂的跨模态生成任务(如“RGB+X+Y”或更多样化的模态)中的潜力。

X-Former:MLLM的统一对比和重构学习

Sirnam Swetha, Jinyu Yang, Tal Neiman, Mamshad Nayeem Rizve, Son Tran, Benjamin Yao, Trishul Chilimbi, Mubarak Shah

​​https://arxiv.org/abs/2407.13851​​

文章总结

多模态大型语言模型 (MLLM) 的最新进展通过将视觉感知能力集成到大型语言模型 (LLM) 中,彻底改变了视觉语言理解领域。该领域的流行趋势涉及使用源自视觉语言对比学习 (CL) 的视觉编码器,在捕捉整体表征方面表现出专业知识,同时在捕捉详细的局部模式方面面临困难。这项工作专注于通过结合通过掩码图像建模 (MIM) 获得的高频和详细视觉表示与 CL 捕获的语义丰富的低频表示增强 MLLM 的视觉表示。为了实现这一目标,本文推出了X-Former,这是一种轻量级Transformer模块,旨在通过创新的相互作用机制来利用CL和MIM的互补优势。具体来说,X-Former 首先从两个冻结的视觉编码器(即 CLIP-ViT(基于 CL)和 MAE-ViT(基于 MIM))中启动视觉语言表示学习和多模态到多模态生成学习。它进一步利用冻结的 LLM 进行视觉到语言的生成学习,以确保 X-Former 的视觉特征可以被 LLM 解释。为了证明我们方法的有效性,我们评估了其在需要详细视觉理解的任务中的性能。广泛的评估表明,X-Former 在涉及 GQA 数据集中结构和语义类别的视觉推理任务中表现出色。细粒度视觉感知基准评估进一步证实了其在视觉理解方面的卓越能力。

模型解析

  • 首先利用两个冻结的视觉编码器(CLIP-ViT和MAE-ViT)来引导视觉语言表示学习,CLIP-ViT通过视觉语言对比学习策略进行预训练,而MAE-ViT通过随机掩码图像建模机制进行训练,两个视觉编码器从输入图像文本对中提取视觉特征。为了整合这两种视觉编码器的信息,并同时学习全局和局部信息,引入了一个轻量级的Transformer模块,称为X-Former,它扩展了Q-Former来整合全局和局部信息。
  • X-Former的输入为一组可学习的query Z,输入文本Tk和图像特征(C, M)。第一个交叉注意块采用MAE特征(M)作为query,Q-Former输出(Zq)作为key和value,通过集成来自Q-Former的全局语义信息来对齐和增强M,从而丰富了MAE特征(M’)。随后,M’通过交叉注意整合全局和局部信息,将Q-Former输出(Zq)增强到Z '。
  • 增强查询(Z ')根据图像文本匹配(ITM)、图像文本对比(ITC)和图像文本生成(ITG)损失进行了优化。最后,将M′传递给冻结的MAE解码器来重建被屏蔽的补丁。

X-Former是一个轻量级的Transformer模块,它设计了一种创新的交互机制来利用对比学习(CL)和掩码图像建模(MIM)的互补优势。通过这种机制,X-Former能够有效地融合CLIP-ViT和MAE-ViT的输出,并生成既包含全局语义信息又包含详细局部特征的视觉表示。

3 音频生成

!盲文也能玩:盲文转语音生成器-基于 CLIP 和 Fastspeech2 联合微调的音频生成

Chun Xu, En-Wei Sun

​​https://arxiv.org/abs/2407.14212​​

文章总结

越来越多的中国人受到不同程度的视觉障碍的困扰,这使得视野中的单个图像或视频帧与表达相同信息的音频之间的模态转换成为研究热点。OCR+Vocoder 和 Im2Wav 等深度学习技术以自监督的方式实现英语音频合成或图像到声音的匹配。然而,用于培训的音频数据有限,英语对于不同教育水平的视障人士来说并不通用。因此,为了解决数据量和语言适用性问题,提高视障人群的阅读效率,构建了一套基于中文语境的图像转语音框架CLIP-KNN-Fastspeech2。该框架整合了多个基础模型,并采用了自主预训练和联合微调的策略。首先,分别在MUGE和Baker两个公共数据集上对中文CLIP和Fastspeech2文本转语音模型进行了预训练,并验证了它们的收敛性。随后,使用自建盲文图像数据集进行联合微调。在VGGSound、Flickr8k、ImageHear等多个公共数据集和自建盲文数据集BIT-DP上的实验结果表明,该模型在BLEU4、FAD(Fréchet Audio Distance)、WER(Word Error Ratio)等客观指标上均有所提升,甚至推理速度也有所提升。这验证了构建的模型在有限的数据下仍然具有合成高质量语音的能力,也证明了整合多个基础模型的联合训练策略的有效性。

模型解析

  • CLIP-KNN-Fastspeech2 模型架构分为两个主要阶段:图像到文本阶段(image-to-text)和文本到语音阶段(text-to-speech)。
  • 图像到文本阶段使用Chinese CLIP模型进行自监督学习和对比学习,在MUGE等公开数据集上进行预训练,学习图像与文本对的特征;再基于Chinese CLIP模型提取的特征,利用KNN算法从图像中检索出文本信息,KNN根据正负样本之间的特征差异来提取文本。
  • 文本到语音阶段使用Fastspeech2 文本转语音模型,在Baker等公开数据集上进行预训练,学习文本到语音的映射关系。输入上一阶段生成的文本,生成对应的mel频谱图,并将其解码为语音。

最后使用自建的盲文图像数据集(Braille dataset)进行联合微调。

4 动作识别

M2-CLIP:一种用于视频动作识别的多模态、多任务自适应框架

Mengmeng Wang, Jiazheng Xing, Boyuan Jiang, Jun Chen, Jianbiao Mei, Xingxing Zuo, Guang Dai, Jingdong Wang, Yong Liu

​​https://arxiv.org/abs/2401.11649​​

文章总结

近年来,大规模视觉语言预训练模型(如CLIP)的兴起,再加上参数高效微调(PEFT)技术,在视频动作识别领域引起了极大的关注。然而,流行的方法倾向于优先考虑强大的监督性能,代价是在迁移过程中损害模型的泛化能力。本文引入了一种名为M2-CLIP的新型多模态、多任务CLIP适应框架来解决这些挑战,同时保持高监督性能和鲁棒可移植性。首先,为了增强单个模态体系结构,我们在可视化和文本分支中引入了多模态适配器。具体来说,文章设计了一种新的视觉TED适配器,它执行全局时间增强和局部时间差分建模,以提高视觉编码器的时间表示能力。此外,我们采用文本编码器适配器来加强语义标签信息的学习。其次,文章设计了一个具有丰富监督信号集的多任务解码器,以熟练地满足在多模态框架内对强监督性能和泛化的需求。实验结果验证了我们的方法的有效性,在监督学习中表现出卓越的性能,同时在零样本场景中保持了很强的泛化。

模型解析

  • M2-CLIP框架输入为视频V和文本标签y,视频经过视频编码器处理后,其特征在时间维度上进行平均池化,得到最终的视频表示v。文本标签经过文本编码器处理后,得到文本表示w。输出为通过多任务解码器得到的分类结果,可以用于监督学习任务和零样本分类任务。
  • M2-CLIP引入了多模态适配器,包括一个视觉TED-Adapter,用于改善视觉编码器的时间表示能力,来实现全局时间增强(Temporal Enhancement)和局部时间差异(local temporal Difference)建模;以及一个文本编码器适配器,用于加强学习语义标签信息。
  • M2-CLIP的多任务解码器包括对比学习头(Contrastive Learning Head),用于对齐视频和文本表示的成对表示,使用对比学习损失进行优化;跨模态分类头(Cross-Modal Classification Head, CMC),用于突出跨模态特征的判别能力,通过将问题转化为1-C分类任务来增强跨模态相似性分数;跨模态掩码语言模型头(Cross-Modal Masked Language Modeling Head, CMLM),在文本分支的最后一层设计,促进视觉特征聚焦于动作动词的识别,使用BERT掩码语言模型头来预测掩码词;视觉分类头(Visual Classification Head, VC),在视觉分支末端引入,用于增强不同类别视频特征的区分度,使用线性层进行分类。

M2-CLIP框架能够在保持高监督性能的同时,实现强大的零样本泛化能力。这得益于模型的多模态适配器和多任务解码器,它们共同作用于视频和文本的联合表示学习,并通过不同的学习任务来提升模型的语义对齐和类别区分能力。

细粒度知识图谱驱动的视频语言学习,用于动作识别

Rui Zhang, Yafen Lu, Pengli Ji, Junxiao Xue, Xiaoran Yan

​​https://arxiv.org/abs/2407.14146​​

文章总结

最近的工作已经探索了视频动作识别作为视频-文本匹配问题,并提出了几种基于大规模预训练视觉语言模型的有效方法。然而,这些方法主要在粗粒度的层面上运行,而没有通过利用动作和身体运动之间的细粒度语义联系来对动作概念进行详细的语义理解。为了解决这一差距,我们提出了一个由知识图谱指导的对比视频语言学习框架,称为KG-CLIP,它将结构化信息整合到视频领域的CLIP模型中。具体来说,我们通过基于组合学习的解析动作,构建了一个由多粒度概念组成的多模态知识图谱。通过实现三元编码器偏差补偿来自适应优化实体距离函数中的边际,我们的模型旨在改善知识图谱中实体的对齐,以更好地适应复杂的关系学习。这允许通过适应图形组件之间的细微关联来增强视频动作识别功能。我们在Kinetics-TPS(一个大规模的动作解析数据集)上全面评估了KG-CLIP,证明了其与竞争基线相比的有效性。特别是,我们的方法在样本帧少或训练数据有限的情况下,在动作识别方面表现出色,表现出优异的数据利用和学习能力。

模型解析

  • KG-CLIP通过解析视频内容(如动作、场景、物体等)和相关的文本描述(如动作标签、句子描述等),构建了一个多模态知识图谱。这个图谱不仅包含了视频中的视觉元素(如动作、身体部位的运动),还包含了它们之间的语义关系和上下文信息(如动作描述、概念标签等)。在构建好知识图谱后,KG-CLIP将其与CLIP模型进行融合。通过扩展CLIP模型的输入层,使其能够接收知识图谱中的结构化信息(如实体嵌入、关系向量等),以在视频领域实现更高效的视频-文本匹配
  • 然后利用CLIP模型的视觉编码器部分,从视频中提取出丰富的视觉特征,包括视频中的基本元素(如颜色、纹理、形状等),及更高级别的语义信息(如动作、场景等)。
  • KG-CLIP用一个三元编码器捕捉三元组中的实体和关系信息,它接收知识图谱中的三元组作为输入,并输出每个实体和关系的向量表示(如<头实体, 关系, 尾实体>)。这些向量表示随后被用于计算实体之间的距离和相似性。
  • KG-CLIP引入了偏差补偿机制,根据实体的具体特征和它们之间的关系,动态调整距离函数中的参数。这样KG-CLIP能够更准确地衡量实体之间的相似性和差异性,从而提高模型的整体性能。

KG-CLIP通过一系列创新性的设计(如知识图谱构建、三元编码器实现、偏差补偿机制等),成功地将结构化信息整合到CLIP模型中,并在视频动作识别等任务中取得了显著的性能提升。

5 零样本异常检测

AnomalyCLIP:用于零样本异常检测的对象识别提示学习

Qihang Zhou, Guansong Pang, Yu Tian, Shibo He, Jiming Chen

​​https://arxiv.org/abs/2310.18961​​

文章总结

最近,大型预训练视觉语言模型 (VLM),例如 CLIP,在包括异常检测在内的各种视觉任务中展示了强大的零样本识别能力。然而,它们的零样本异常检测(ZSAD)性能较弱,因为VLM更侧重于对前景对象(foreground objects)的类语义进行建模,而不是图像中的异常/正常性(abnormality/normality)。本文引入了一种新的方法,即AnomalyCLIP,使CLIP在不同领域中实现准确的ZSAD。AnomalyCLIP 的关键是学习与对象无关的文本提示,这些文本提示会捕获图像中的一般正常性和异常性,而不管其前景对象如何。这使我们的模型能够专注于异常图像区域而不是对象语义,从而能够对不同类型的对象进行广义正常性和异常识别。在17个真实世界异常检测数据集上的大规模实验表明,AnomalyCLIP在各种缺陷检测和医学成像领域的高度多样化的类别语义数据集中实现了卓越的零样本检测和分割异常性能。

模型解析

  • AnomalyCLIP设计了两种通用的与对象无关文本提示(Object-Agnostic Text Prompts)模板:一种用于正常性(normality),另一种用于异常性(abnormality)。这些提示模板不包含具体对象的语义,而是专注于捕获图像中的异常模式,无论前景对象是什么。
  • 然后进行全局上下文优化和局部上下文优化:通过交叉熵损失函数,将对象无关的文本嵌入与辅助数据中正常/异常图像的视觉嵌入进行匹配,以捕获全局特征中的正常/异常语义。通过焦点损失(Focal Loss)和Dice损失,优化文本提示以关注视觉编码器中间层的细粒度、局部异常区域。
  • 通过在CLIP文本编码器的每一层添加可学习的标记嵌入(token embeddings),来精细化原始文本空间,使其更适合异常检测任务。通过引入对角突出的注意力图(Diagonally Prominent Attention Map, DPAM)来改进局部视觉空间,使得注意力图更加关注局部视觉语义,从而提高异常检测的准确性。AnomalyCLIP整合了来自视觉编码器多个中间层的特征,以提供更多的局部视觉细节,增强模型对异常区域的识别能力。

AdaCLIP:使用混合可学习提示的自适应CLIP用于零样本异常检测

Yunkang Cao, Jiangning Zhang, Luca Frittoli, Yuqi Cheng, Weiming Shen, Giacomo Boracchi

​​https://arxiv.org/abs/2407.15795​​

文章总结

零样本异常检测(ZSAD)的目标是从任意新颖的类别中识别图像中的异常。本研究引入AdaCLIP用于ZSAD任务,利用预训练的视觉语言模型(VLM)CLIP。AdaCLIP将可学习的提示整合到CLIP中,并通过在辅助注释的异常检测数据上进行训练来优化它们。AdaCLIP引入了两种类型的可学习提示:静态提示和动态提示。静态提示在所有图像中共享,用于初步调整CLIP以适应ZSAD。相比之下,为每个测试图像生成动态提示,为CLIP提供动态自适应功能。静态和动态提示的组合称为混合提示,可提高ZSAD性能。在工业和医疗领域的14个真实世界的异常检测数据集上进行的广泛实验表明,AdaCLIP优于其他ZSAD方法,可以更好地推广到不同的类别甚至领域。最后,我们的分析强调了多样化辅助数据和优化提示对于提高泛化能力的重要性。

模型解析

  • AdaCLIP引入了两种类型的提示——静态提示(Static Prompts)和动态提示(Dynamic Prompts)。静态提示在所有图像中共享,它们在训练过程中从辅助数据中学习,用于初步调整CLIP模型以适应ZSAD任务。动态提示是针对每个测试图像生成的,它们提供了模型对不同图像的动态适应能力。将静态和动态提示结合起来,形成混合提示,这样可以提高模型对新类别图像的异常检测性能。
  • 为了解决CLIP原始架构中图像嵌入(Patch Embeddings)与文本嵌入维度不匹配的问题,AdaCLIP添加了一个投影层来对齐这些嵌入的维度,并通过引入偏差的线性层增加了一些可学习的参数,以进一步微调CLIP。
  • AdaCLIP还引入了混合语义融合模块(Hybrid Semantic Fusion, HSF)用于改善像素级别的异常检测。首先AdaCLIP利用CLIP模型的不同层次的输出来生成异常图(Anomaly Maps,基于图像嵌入(Patch Embeddings)和文本嵌入(Text Embeddings)之间的余弦相似度计算得到。每个层次的异常图反映了图像中不同区域的异常程度。然后混合语义融合模块使用KMeans++算法对来自不同层次的异常图中的嵌入进行聚类。这些聚类假设代表了图像中的不同区域,其中具有最高平均异常分数的聚类可能对应于异常区域。最后将这些异常图融合成一个最终的预测,从而更准确地定位和识别图像中的异常区域。

综上,AdaCLIP通过计算图像嵌入和文本嵌入之间的余弦相似度来确定异常分数,这些分数表示图像及其像素是否正常或异常。

#Wayve的端到端进化到哪一步了?

www.youtube.com/watch?v=a_q3Efh6-5E&ab_channel=Wayve​

Structure

Traditional AV stack 1.0

AV1.0

这是一个需要比较大成本的系统,目前也没有一家公司真正做到了。

  • 高精地图(高精地图建图&依赖高精度传感器建图)
  • 数据标记

AV 2.0(Wayve)

  • 算法易于部署在不同传感器芯片移植(computationally homogeneous)
  • 数据驱动(Generalisation through data)
  • 无图方案成本低,泛化性高(scalable and economic)
  • 安全(outperforms hand-coded solutions)

case处理​

Frontiers in Embodied AI Research

Simulation

端到端的仿真需要模拟出视觉信息,这是非常困难的,总结一些Wayve的工作:

  • 缩小了预测和行为的gap
  • 动态物体和可形变的物体模拟
  • 模拟出整个环境和平台
  • 数据驱动&可移植
  • 长尾问题

Ghost Gym: A Neural Simulator for AD

​​https://wayve.ai/thinking/ghost-gym-neural-simulator/​​

闭环的仿真器

PRISM-1

动态场景重建模型

自监督,4D,Non-parametric scene representation

​​https://wayve.ai/thinking/prism-1​​

实时重建

水坑反射和行人踩自行车

这个水坑和动态的踩自行车真的牛。。。而且是4d重建,不是一个简单的动画。

而且用正弦曲线去扰乱,也能保证生成的场景很完美,甚至能保证生成的行人也不漂移,甚至还拿着雨伞。

训练场景集:https://wayve.ai/science/wayvescenes101/

重建出来的行人都不失真

不止能重建世界,也能生成一些多样化的场景(所有data driven的优势)

Wayve GAIA(2023)- Generative World Model

arxiv.org/abs/2403.02622

World Models for Autonomous Driving: An Initial Survey

arxiv.org/abs/2403.02622

World Models for Autonomous Driving: An Initial Survey

GAIA还可以添加objects,并且做标记(动态的)​

Multimodality

LLM4Drive: A Survey of Large Language Models for Autonomous Driving

Lingo1: https://wayve.ai/thinking/lingo-natural-language-autonomous-driving/

Lingo-1

Lingo2: https://wayve.ai/thinking/lingo-2-driving-with-language/

更注重实际驾驶,不仅在驾驶,而且在解释。

这里的解释行为也比较重要,这里根据不同场景改变了驾驶计划。​

Foundation Models

A Model that is trained on a diverse set of data that can be adaped to a wide range of downstream tasks.

一些挑战

#又一家新势力危了!引入华为技术却没能拯救

“银十”落幕,本该欢欢喜喜交上成绩单之时,却又有一家新势力被曝出降薪裁员。

远航汽车大运集团旗下的高端新能源品牌。

虽然品牌知名度不高,但更早之前因为设计上的原因,有过几次出圈热议。其中最热闹的一次,还是在小米造车之后,被误当作小米SU7的“原型车”。

但现在,同属新势力的两家已然无法同日而语。

小米SU7已经实现了2万辆每月的惊人交付,开启了智能化赛道上的新一轮竞速。

而远航汽车,则被曝出人员流失严重、延迟发工资,底盘研发部门甚至只剩下十多名员工还在坚守。

在对外回应中,远航汽车也表示正在进行战略调整,目前处于重组状态,但是否还能再上牌桌,竞速智能化,答案已经变得飘渺动荡了。

以及令人感慨的是,远航汽车及其母公司大运集团并非不重视技术、不重视智能化,甚至还引入了华为智能车相关业务作为供应商

但大运集团没有复刻小康集团的路线,远航也没有创造赛力斯一样的佳话。

远航汽车的困境,折射的是智能汽车转型期里,稍纵即逝的窗口时间。

一步慢,步步慢,再想跟上,难于登天。

远航汽车降薪裁员

消息已经遮盖不住,最近新能源车企远航汽车,被传出延迟发放工资,人员流失严重,甚至强制休假的消息。

有自称远航内部研发的员工还爆料说,公司底盘研发部门人员流失速度快,目前只剩下十多名员工

还有员工透露,所在部门的员工已被强制休假一周,并且没有通知复岗时间,待岗期间公司也没有提供工资和补偿。

并且公司的资金状况较为紧张,目前正在寻求新的融资,以及地方资金的支持。

另外还有门店销售人员透露,公司从6月份开始就出现了工资延迟发放,7月的工资延迟了2个月才发放。

第一财经向远航汽车求证后,官方回应中也确认了传闻中的动荡:

公司正在进行战略调整,目前处于重组状态,过一段时间等调整完成会恢复正常。远航汽车毕竟背靠大运集团,不会轻易倒闭。目前,高管、中层职员都是正常在职状态。

所以不论是爆料还是官方的回应,基本证实了远航的处境。

作为一家名不见经传的新能源造车品牌,远航实际上不常出现在公众视野,其采用的推进战略,也相对更为传统,但即便如此,因为远航汽车在设计等方面的特点,还阴差阳错上过几次热搜。

如今这样的局面,多少有些可惜可叹。

远航汽车是谁?

说到远航汽车,可能听起来有些陌生,但他的母公司大运集团,可谓是家喻户晓。

一句“风驰电掣,大运摩托”,唤醒了多少人的回忆。

远航汽车,就是大运集团的高端新能源汽车品牌,2022年8月首次面世,在新势力中也是新秀。

大运集团早在1987年成立,本身是靠摩托车业务起家。

但随着市场需求的变化,以及国内越来越多地区禁摩,大运意识到,如果继续把摩托车当作主导产业,企业规模也会受到限制。

所以从2004年,大运开始进军商用汽车行业,先后涉足重卡、中卡和轻卡领域,从2009年投产以来,产销量保持行业前十的位置。

从摩托车跨越到汽车,这次转型可以说非常成功,也给大运增添了很多信心。

所以到2016年,大运紧跟着“绿色发展”布局,把目光转向新能源汽车,启动了新能源商用车战略,又在2017年转战新能源乘用车。

2022年,远航品牌问世,瞄准了30万-60万元级的高端市场。

22年年底的成都车展上,远航带着产品首次亮相,一口气发布了两款豪华轿车远航Y6、远航Y7,以及两款豪华SUV,远航H8远航H9

为了打响招牌,加深消费者对远航的“高端品牌”印象,远航选择和博世、华为、阿里斑马合作,联合打造了B.H.D高端纯电平台。

不过,转型重卡的成功例子,并没有在远航汽车身上重现。

远航汽车的困境

自2022年推出四款车型之后,远航再没有推出新的产品。

按照当前的指导价,价格相对最低的是远航Y6,指导价是26.98-33.98万,最贵的是远航H9,指导价40.98-51.98万。

而现有的四款车型,去年11月开始批售,实际上只有远航Y6和远航H8在售,并且销售情况也不算乐观。

根据中汽协数据显示,远航汽车今年9月销售779台车,1-9月累计销量为5584台

在如今,其他新势力动辄月销几万台的背景下,这样的销量显然不在一个量级。即便是高端品牌,也不及阿维塔这样的销量水平。

销量跟不上,即便价高,想要活得好也会有阻力,被曝出资金紧缺就不算奇怪了。

远航汽车为何有如今的困境?

首先是品牌的宣传度不够

据爆料的员工表示,除了车展、高铁和机场广告,其他地方几乎没有任何营销方式。

远航也很少举办发布会和试驾活动,市场了解的途径有限,因此与之相关的报道也比较少,在汽车行业甚至称得上神秘。

其次,远航汽车的产品车型比较单薄

尽管成立之初,远航就一口气推出了四款车型,但在这之后的两年,新的车型再没有动静,而且只有四款车型中,只有两款在售。

也许大运并没有意识到,重卡市场与新能源汽车市场,实际上有非常大的不同。

在当前,新能源车企技术相互竞速,新产品层出不穷,并且已经在全方位的“卷”,包括配置、服务、营销,“卷”得没有死角。

在这个汽车产品飞速迭代的时间段,远航的速度,走得有些太慢。

谈到技术,这也是远航最大的“痛点”。

因为远航的“灵魂”,基本上都是砸钱买来的。

大运董事长远勤山曾表示过,远航不需要太多技术,自己搞先进技术,可能十年也赶不上博世、华为现在的水平,所以要把最优秀的融合在一起,直接买来再整合。

因此在技术上,远航汽车拥有华为智能车控域控制器VDC、热管理系统TMS 2.0,以华为智能转向系统。

博世合作了一体化底盘集成技术、高功率电桥等等,又选用了斑马智行的智能驾驶、智能交互技术。

但这样的模式,在智能化的下半场很难立足。

其一,是一步慢步步慢,远航H8搭载的是高通8155芯片,而零跑、银河等车型,已经搭载了算力更强的高通8295芯片,落后也意味着失去竞争力。

其二,自研趋势越来越明显,像理想、蔚来这样的头部新势力,都在开始加大自研的力度,适应更快节奏的智能汽车竞争。

但知人论世,往往都是事后才能给出的分析了。

毕竟百年汽车工业,强调自研成功的车厂有,远的不说,近如特斯拉,就是最典型的案例。

也有依靠供应商合作伙伴成功的品牌,比如赛力斯,同样作为传统不高端汽车品牌的小康,在新能源和智能化浪潮中,率先并紧紧抱住了华为,从产品设计、核心技术到营销,统统让华为发挥能力,自己制作好制造一项,最终实现了珠联璧合下的成功,不仅产品创造了销量神话,品牌成功完成高端化转型,还拿到了竞速下一阶段的入场券。

从最初被汽车圈“群嘲”,到后来越来越多人“理解赛力斯,成为赛力斯”……疗效就是最直接的证明。

然而,即便远航汽车这样的玩家,现如今理解了赛力斯,也可能很难成为赛力斯了,毕竟到处落子下界的华为,忙不过来了。

#ChatTracker

即插即用:多模态大模型重塑目标跟踪

视觉对象跟踪旨在基于初始边界框在视频序列中定位目标对象。最近,视觉语言(VL)跟踪器已经提出利用额外的自然语言描述来增强各种应用中的通用性。然而,VL跟踪器在跟踪性能方面仍然不如最先进的视觉跟踪器(SoTA)。我们发现,这种劣势主要是由于他们严重依赖手动文本注释,其中包括频繁提供模糊的语言描述。在本文中,我们提出了ChatTracker,利用多模态大语言模型(MLLM)中丰富的世界知识来生成高质量的语言描述并提高跟踪性能。为此,我们提出了一种新的基于反射的提示优化模块,通过跟踪反馈迭代地改进目标的模糊和不准确的描述。为了进一步利用MLLM产生的语义信息,提出了一种简单而有效的VL跟踪框架,该框架可以很容易地集成为即插即用模块,以提高VL和视觉跟踪器的性能。实验结果表明,我们提出的ChatTracker实现了与现有方法相当的性能。

总结来说,本文的主要贡献如下:

  1. 我们提出了ChatTracker,这是一种利用MLLM进行视觉对象跟踪的新框架。据我们所知,这是将MLLM纳入跟踪框架的第一项工作。它为现有的视觉和VL跟踪器提供了即插即用的模块增强功能,计算开销有限。
  2. 我们引入了一个基于反射的提示优化(RPO)模块,以缩小VL跟踪器和MLLM之间的知识差距。通过反思跟踪反馈,RPO模块可以迭代优化MLLM的提示,最终为跟踪目标生成准确和相关的描述。与数据集中的人工标注文本相比,这些描述在跟踪性能和图像文本对齐方面都更优越。
  3. 我们提出的ChatTracker在多个跟踪数据集上实现了SoTA性能。我们进行了广泛的实验,包括消融研究,以证明所提出的方法及其各个模块的有效性。

相关工作回顾

Vision-Language Trackers视觉语言跟踪方法Zhou等人、Ma和Wu等人探索了使用语言线索来增强视觉对象跟踪。这些方法可以根据其文本来源进行分类:使用手动注释文本的方法和从预定义词典生成描述的方法。在第一类中,手动注释文本已被广泛用于目标跟踪任务。LaSoT、TNL2K和MGIT等数据集为每个序列提供了手动注释的语言描述。SNLT跟踪器利用视觉和语言描述来预测目标状态,然后动态组合这些预测以产生最终结果。JointNLT将视觉基础和自然语言引导的跟踪相结合,有效地满足了这两个过程的不同要求。第二类利用预定义的词典生成语言描述。CiteTracker精心开发了一个类别词汇表,其中包括目标的颜色、纹理和材料等属性。在跟踪过程中,它使用CLIP来比较图像和文本之间的相似性,选择与图像非常匹配的文本作为目标的描述。与这些方法相反,我们的工作专门采用MLLM来获取目标的精确文本描述。这种方法有效地消除了对手动文本注释或预定义词典的依赖。

Large Language Model in Vision Tasks

大语言模型(LLM),如ChatGPT和Llama是在广泛的互联网规模文本上训练的自回归模型。它们在权重中包含了广泛的世界知识。最近,GPT-4V发布,因其出色的多模态感知和推理能力而立即引起了社区的关注。在此之后,使用CLIP模型对图像进行分类,提高了分类任务的精度。这些进步主要针对基本的视觉识别,如分类和检测。在这项工作中,我们致力于将LLM中包含的丰富世界知识整合到视觉对象跟踪领域。​

ChatTracker方法详解

所提出的ChatTracker由三个部分组成:基于反射的提示优化(RPO)模块、语义跟踪模块和前景验证模块。

Reflection-based Prompt Optimization Module

初始化。我们在第一帧I1中的跟踪目标上绘制一个绿色边界框,创建一个新的图像输入Im。预定义的人工提供的提示模板Tinit和Im被输入到MLLM中,从而对前景和背景进行初始描述:

图片

RPO模块将模板图像作为输入,并生成前景和背景的文本描述。然后,对于每一帧,语义跟踪模块将前景和背景的文本描述作为输入,利用GVLM获得前景和背景region proposals:

图片

语义跟踪模块还包括一个现成的单对象视觉跟踪器。最后,前景验证模块通过考虑前景建议、背景建议和模板之间的关系,选择置信度最高的前景建议作为跟踪结果。​

实验结果​

结论

在这项工作中,我们介绍了ChatTracker,这是第一种利用多模态大语言模型(MLLM)来提高视觉跟踪性能的方法。我们提出了一种基于反射的提示优化(RPO)模块,通过跟踪反馈迭代地改进目标的模糊和不准确的语言描述。此外,提出了一种简单而有效的视觉语言跟踪框架,作为即插即用的方法来提高现有跟踪器的性能。在多个数据集上的实验结果表明,我们的方法优于最先进的方法。这表明,将MLLM纳入视觉跟踪对提高跟踪性能有显著效果。

#自动驾驶感知算法面经

本人2022年4月和2023年7月两次跳槽找工作,面经总结在这里,希望可以帮到需要的朋友。

项目相关的问题主要和经历有关,参考性不大。​

2023年7月

1. 文远知行

自动标注算法岗位

项目经历问的不深

coding两道题。

leetcode 55 跳跃游戏。

NMS python。

2. 易控智驾

面试体验较差,不说了。

3. 斑马

coding:买卖股票基础版

工作时间早十点,晚上八九点

4. 蔚来

第一轮:

项目问的比较细

几个公开数据集的lidar区别,对点云、模型检测的影响

domain adaption相关的方法,如何缩放点云

radar检测的具体优化。pointnet和pointnet++的区别

pnp calibration

栏杆检测为什么不用网络学习?

BN的mean和std的dimension,有哪些可学习的参数,train和test的时候怎么用

coding:python 计算两批shape不一样的box的IoU。不用for循环。

numpy的broadcast

自认为有技术领先性

第二轮:

问的都是些比较抽象的问题

对视觉3d检测算法的了解。

举例工作中遇到的困难,(技术/项目),如何解决的

对之前公司的感知算法的问题,看法认识

对未来自动驾驶算法的看法

coding:未知形式的函数f(x),零点在[-1,1], 求零点,精度要求1e-4

5. 有个机器人

纯纯八股文

c++语言特性,构造函数,析构函数

batch norm是什么,原理

MLP是什么, 欠拟合,过拟合,

是否了解量化,剪枝

目前是lidar为主,未来会加camera。

主要是做小型物流机器人。

在做安防机器人。

感知团队5-6个人,包括深度学习,slam。

上班时间10-7 。

大小周 周六上班。

6. 井松智能

没问什么技术问题,主要介绍下项目

要去合肥出差

工作时间:九点半到六点半

7. 商汤

智慧城市

没问项目就开始coding

coding两道题:NMS,用pytorch手写一个transformer或者conv+bn+fc

8. 禾赛科技

第一轮:

项目问的很细

卡尔曼滤波Q和R怎么调

c++ 解释多态,在哪些场景应用过

vector和list的差别,底层实现,各种操作复杂度

template是否算一种多态?如果不在.h里面定义他的函数,在.cpp里面定义会有什么问题?

公司的优势:软硬件一体,易于沟通解决问题

客户的不同硬件平台,不同的功能需求。

第二轮:

又问了些项目相关的问题。

一堆点,找最大凸包。无序的话 用什么排序?极点排序,最慢O(n^2)

第三轮:

现场面试

介绍下最有成就感的一个项目。

coding:快排,时间复杂度为什么是O(NlogN)

c++ segment fault如何debug

vector 和list底层实现,基础操作复杂度

问了些性格相关的问题

9. 字节aml

没有问八股,问了些大模型的较新的技术进展

llama,MAE,flamingo

transformer的encoder和decoder,position encoding,rope。

10. oppo研究院

第一轮:

问了项目中涉及到检测跟踪的算法

十几个人 四个方向。检测跟踪2个人,做手机相册相关算法

c++ vector底层实现,基本操作复杂度,

虚函数,设计模式有哪些,用过哪些设计模式

第二轮:

介绍下某项目中对模型做了哪些优化

yolov5,v6,v7

clip有什么问题。为什么,适合什么场景

segement anything:prompt如何输入进网络

认为自己擅长算法的哪些方面

有些算法是外包的,准备转为自研

11. navinfo四维图新

泊车感知算法

传感器:超声波传感器和鱼眼相机

L2行车泊车。今年年中/年末交付

自动驾驶在内部相对独立。

图像感知在北京。

超声波传感器换了新版。输出的信息更多了,需要招人来。

国资背景

众包地图

上半年刚进行改革。压力比较小。

八小时弹性。无事不加班。

12. 商汤自动驾驶

第一轮:

了解哪些目标检测算法,各自的优缺点(anchor,anchor free,transformer)

传感器标定是怎么做的

domain adaption怎么做的

描述两次代码重构的过程和思想

描述卡尔曼滤波的过程,具体如何解决问题的

后融合怎么做的,速度的gt如何得到

coding:dbscan

第二轮:

是否了解learning的tracking?

是否了解sota的bev感知算法

是否能接受加班

13. 理想第一轮。

早九晚六/七

c++写的很多

coding;岛屿数量,延伸:如何统计不同形状的岛屿,如何对不同形状建模表示

描述下dbscan过程

c++ 为什么要用引用传参

目前lidar和融合一共20人

14. 地平线(合资)

第一轮:

加班没有特别频繁。上海会新开office在虹桥/张江。

coding:快排

第二轮:

问的c++问题相对较难:

内存分配,内存池

野指针,一般是什么情况下会产生,如何避免

智能指针,如何实现一个shared_ptr类,各个成员函数什么时候调用,成员变量什么时候更新。

new一个新对象时候发生了什么,如何能只创建对象不分配空间?

调用一个派生类的构造函数时发生了什么?

15. 英伟达

自动驾驶support岗位,每周去车上测试一次

描述图像resize的过程并实现

c++编译出现undefined reference如何debug

迁移软件时,出现找不到的binary怎么解决

c++多态,虚函数,构造函数可以是虚函数吗,为什么

内存泄漏如何避免

c++模板,应用场景

智能指针,shared_ptr, unique_ptr

指针和引用

external

感受野怎么算,如果有branch

描述NMS过程

yolo和ssd的box后处理的具体过程

transformer的self-attention过程

softmax为了让输出更稳定做了什么

2022年4月

ps:以下记录的公司相关的信息已经不太可信

1. 滴滴

第一轮:

pointnet input transform,feature transform

coding 834. Sum of Distances in Tree hard,dp+2dfs

C++ set和ordered set底层实现,insert和erase的复杂度

第二轮:

英文自我介绍&几个简单的问题

主要问的tracking,ukf有没有用,具体的R如何根据mean和std调整

coding https://www.techiedelight.com/find-triplet-with-given-sum-bst/

bst遍历的时间复杂度,3sum用左右指针的时间复杂度:O(N^2)

  • Time complexity of all BST Operations = O(h).
  • Here, h = Height of binary search tree

2. 轻舟智航

第一轮:

pointnet input transform,feature transform,

max-pooling可以用什么替代?怎样可以降低nx1024的参数量?

batch norm解决了什么问题?有什么优缺点?需要学习哪些参数?还有其他什么norm?

L1和L2 regularization,什么作用,具体怎么实现的,什么区别,和weight decay什么关系

卡尔曼滤波器,P,Q,R怎么决定K和协方差阵的?

状态量在平面坐标系,观测量在极坐标系,效果不好?

coding 547. Number of Provinces graph dfs

dfs的时间复杂度:O(N^2) 因为每个节点都要去遍历他的children,相当于两层循环

c++:

vector底层实现,空间是连续的吗?vector变量存在堆上还是栈上?里面的每一个值存在堆上还是栈上?

unordered map和map,有序还是无序?底层实现,insert和erase的复杂度

3. ecarx亿咖通

第一轮

coding:DBSCAN

主要业务:智能座舱+自动驾驶

芯片:xinqing科技

感知主要是lidar和camera

去年(2021年)获得了hdmap甲级资质

第二轮:

radar 后融合 直接用cluster

偏向于lidar和camera

目前还在实现大部分功能

前装,乘用车,

主线:多V,多R,多lidar

高速+城区,逐步release

双休,九点半到八点,不打卡

徐汇滨江西岸

平台,系统更大,自动驾驶,芯片,智能座舱,

港股上市,

和tech lead面试的问题:

团队的组成?二十多个人做NN模型,研究生,平均四五年以上,大感知团队:有博士,

zhijia,小鹏,mmt,华为,

自己开发的训练模型的平台,pytorch。

平时有发paper或者刷榜的计划安排吗? 会和平时的工作相结合,互相验证。

比较看重员工的什么能力?技术能力,沟通。创造力。

做到25年的规划。

23年单V落地。

主要客户:泊车,adas,吉利汽车下面的。还有一些联合开发。

4. 纵目

一轮技术面:

更复杂的tracking算法。

传感器raw data。

前融合。

freespace 用雷达

视觉->系统供应商->雷达

毫米波雷达感知七八个人,还有信号处理,一共100多人。华为,美团,江淮。

hr面试:

工作时间 九点半,五点半/六点半。双休,没有打卡

毫米波雷达感知七八个人

同一批人做量产/预研

中级/高级差不多各一半。

总监 工作了十几年。比较平衡。

有mentor

张江

5. 采埃孚

ukf,

除了hm之外的其他匹配算法

观测和预测的相似度计算

PQR都是怎么设置的

单例模式和工厂模式的区别

6. 感铠科技

L2,L3,adas功能实现,主要在底特律

尝试前融合,目前是用原始radar detection和vision

4d radar 从硬件到软件

初创公司

有期权

乘用车

公司名字可能会改,四月份确定

项目制,

马上要A轮

在新江湾城

7. 文远知行

第一轮:

卡尔曼滤波,怎么用同一个filter同时适配车辆横穿的场景

感受野计算。

centernet等基于center的recall不够高,有什么办法来改善

做二分类,有80%的数据是标注正确的,20%是标注失败的,如何训练?

anchor-base和anchor-free的优劣;

如果anchor-based的方法,设置很多不同的anchor,对于非正常宽高比的物体以及小目标会有改善吗,除了计算速度以外会有什么其他问题

c++11之后的新特性有没有用过

智能指针

void test (const std::vector<shared_ptr>& aaa){

aaa[0].b += 1;

}

编译能不能通过

std::vectorgenerate() 和 void generate(std::vector*) 哪个效率高

一般是第二个效率高,因为函数返回值默认会赋值一份空间,除非编译器有做return value optimization

单例模式的实现:static、全局变量、指针判断(默认是空,每次用的时候判断是不是空,空就创建一个)

coding:二叉树的直径 543

上海这边一共50人,感知6~7个人,

大家同时做几个产品线,通用算法

毫米波雷达和视觉相关都有

第二轮:

coding:105. 从前序与中序遍历序列构造二叉树, 7. 整数反转

环卫车项目,要在广州2个月左右,目前是二三十个人,主要是基于已有的融合,tracking框架加入环卫车特有的一些规则

后面稳定下来后可以参与感知算法

8. 极氪科技

面试官是radar负责人

7,8点下班

coding:区间合并 56

目前毫米波雷达只有两个人

背靠吉利,在供应商面前占有强势地位,有conti的4d radar在手

目前可以拿到传感器目标级和点云级的输入

毫米波雷达在高速上比较重要,未来会扩展城区场景

主要来自蔚来,华为

第二轮:

面试官是感知负责人

感知包括定位等,一共目标一百六七十,

感知算法,目标检测这边目标八九十。

前融合,feature级别的融合

量产 要求较高

最终目标是城区场景

目前是装的eq5

也会涉及到lidar,融合等算法

九点半之前上班。

9. autox

第一轮:

coding:number of islands

unorder_map map区别,unique_ptr

int const * const x; const放在*右边,指针的指向不能改,这一行第一个const也可以放到左边,const int也不能改 int * const y; 指向int的const指针,int值可以改,指针指向的地址不能改 const int& i = *y; i的值不能改,read only int& j =*y; j是别名,可以改,改了的话y指向的变量也会改

毫米波雷达感知只有美国一个人,国内十几个人在做autox自己的雷达。

也会做和camera,lidar的融合

第二轮:

卡尔曼滤波器,要是系统不是线性的会产生什么问题?

ekf是怎么解决不是线性的问题的?

匈牙利匹配是一个全局最优的,有没有试过其他的匹配方法

coding:判断一个点是否在一个旋转的box内

10. pony

第一轮:

coding:https://leetcode.com/problems/binary-tree-maximum-path-sum/

问了ssd,yolov3,centernet

第二轮:

是否了解radar如何测角测速

coding:无序数组,选三个连续子数组,每个子数组都是两个元素,求这三个子数组的和的最大值

用前缀和思想+

也会做和lidar,camera的融合,

有不同的项目线,基本上用同样的code base,自己决定做哪个项目

算法迭代需求主要来自于路测问题和evaluation结果

evaluation工具比较完善

11. 千挂

主要在北京,一共30, 感知5-6个人,前融合

coding:实现shared_ptr

两个bst,各选一个数,加起来等于target

12. 主线科技

第一轮:

重卡,物流运输,

干线物流+港口物流:L4,无安全员。

北京:港口,L4前瞻调研,lidar和vision提供general感知,地图等。300人。

按照博世系统来,

上海:算法十个人,平均工作五年以上

去年(2021年)九月份成立,主要是为了高速干线物流量产,落地,合作商用oem top2,radar后融合with lidar和vision,环境搭建,会来一位大佬,做过前后融合,目前没有人做radar,打算招7~8个人。目前是用目标级输出,未来用点云。50人->100人。算法三十人。

第二轮:

先做后融合,

当前是L2

第三轮:

日常的工作的大概内容?

路测数据,主导开发的原则,

比较看重员工的什么能力?

背景,学历,个性。

主要是Apollo系统,

组织架构合理,有凝聚力

毫米波雷达+融合。

嘉定安亭。上海汽车城大厦。九点到六点半。十一点半到一点午休。没有打卡。

13. 云骥科技

第一轮coding: 54. 螺旋矩阵

感知15个人,lidar,camera,radar,

干线物流,城市货运,乘用出行三个场景,从城市场景开始做?

做一个统一的平台,优先做robotaxi。然后做robo bus

园区L4无人小巴,计划六月份在上海公共道路

robotaxi已经有公司在做了,和友商比较的核心竞争力是什么?域控,有自己的gpu,不用ipc

团队完整,资金足够,王京傲的影响力。

自驱力,自我成长,团队合作精神。

14. 禾多科技

代客泊车和自动驾驶

第二轮

有多个项目

5R + 1V

5R + 7V

5R + 7V + 3L

一个人会参与多个项目

上海这边感知4/5个人

15. appen澳鹏

第一轮:

澳洲上市的外企

主要工作:数据预处理,后处理,算法开发。

上海有两个分部:local和global。这个岗位负责global业务,准备招4~5个人

流程:本地验证,和annotator合作验证,跑过线上ab test,由engineer部署。

第二轮:

coding:两个排好序的数组,找公有元素。

Product quantization (PQ)

问了概率计算,sample数据实现。

个人的优缺点

主要客户:Google,Apple,

16. 智加

coding:number of islands

量产由其他team负责,这个team负责预研及量产。

17. 商汤

点云和图片的区别

pointnet为什么没有用conv?

focal loss的参数如何调

有哪些loss

anchor free和anchor based的区别

anchor-free的target assign是怎么做的,怎么解决多个目标中心点位置比较靠近的问题?

centernet网络输出是什么

描述卡尔曼滤波器

如果分类问题中几个类别有overlap怎么办,如何设计网络结构

是否了解mmdetection的hook

如果需要在mmdetection中加一个backbone,需要改哪些代码?

coding:二叉树中序遍历,不用递归

18. 禾赛科技

第一轮:

数据,标注,感知,后处理,工程

15个人,点云特征,十点-八点

第二轮:

coding:环形链表,每一个node是一个point(x,y),连起来是一个多边形,判断凸凹性

19. 均胜电子

准备单独上市,去年(2021年)刚成立,准备从100人扩张到200人

目前有五家公司在谈合作。

先做国内再做国外

算法:感知10人->20人。

主要做L4 taxi,L2,L2++,芯片

目前主要在高速场景

老板郭济顺

客户稳定,传统tier1,有积累,有资源,70%业务来自于国外

第二轮:面试官以前在上汽,主要做视觉感知,七八年

上海office在莘庄。莘学路。两栋楼。

有食堂。

九点-五点。

#如何做vslam

倘若能有一场时空对话,我将告诉曾经的我如何做vslam

短短4年的时间,vslam就犹如过气网红般声量渐失。曾经这个话题,还能引来各路大佬欢聚一堂好不热闹,如今曲终人散,门前冷落鞍马稀。今日赶个晚集,借这个话题做个我这几年开发的几个vslam项目总结,倘若能有一场时空对话,我将告诉曾经的我如何做这个事情。

衣带渐宽终不悔,为伊消得人憔悴。

SLAM 技术会是一场泡沫吗?​

1.知彼

当被安排某个陌生的工作的时候,想必大家心情是这样的:

学习两年多,感觉SLAM太难了,大家对此有什么想法?

自己,队友,老大都是小白也没关系,都没思路也没关系,可以去搜搜别人工作先。每一个好厨子都肯定先是一个好吃货。当我从别处知道一个新概念的时候,那至少说明第一个螃蟹已经有人吃了,我可以去搜搜他的“小x书”看看那些“网红博主”的心得。

算法领域的“小x书”大家都懂:github,在里面搜搜高流量(star)帖子就好了。在这个“知播间”里我已经替家人们汇总好了:

请问是否有开源的实时视觉里程计?

通过上述总结,以特征点为例,可以发现框架性工作为vins,msckf,orbslam,kimera,这几篇给我们提供了优秀的ceres,滤波,g2o,gtsam的pipeline和学习手册,堪称vslam领域的基础设施。大量后来者在白嫖..啊不,致敬这些作品后进行二创。

vslam要干哪些事情呢?有特征提取和匹配,状态优化,深度解算,回环检测/VPR,全局BA/PGO。

在扫过大量二创后,发现他们都比较关注特征提取和匹配这个环节,尤其超爱线面特征。配合深度学习食用后又交叉到感知去了。

坚守SLAM还是拥抱大模型?

我对3dgs/nerf和事件相机的slam方向一直不感冒,可能是在企业里呆惯了也没读过博的缘故吧,在我有限的认知里,我看不到这几个方向落地的可能性,更像是学术圈闭门造车的自嗨。算法工程师算是相对比较贵的岗位,若只顾着发论文玩demo讲故事而不靠产品持续造血,当资本的浪潮褪去时,还是会略显尴尬吧。

方向错误是最可怕的事情,你越努力,朝错误的方向走得越远,沉没成本越高,就越难回头,也越跟不上。

这样的例子有很多,苏联和美国在计算机领域本在同一起跑线,甚至他们的数学更强,但是他们发展晶体管而不是集成电路,他们玩三进制而不是二进制,走错了路就再也追不上了;还有日本新能源科技树点到了氢上,已经彻底跟不上中美对步伐了,甚至他们的铁杆盟友乌克兰把他们的氢能源车拿去做炸弹刷给榜一大哥俄罗斯,这谁敢开他们的车?

对错误路线的判断取决于认知,认知局限导致走错路很可怕,明知故走就更可怕了。​

2.知己

知己知彼,百战不殆。知彼,是为了知道别人在想什么干什么,知己,是为了知道自己啥条件啥需求。

啥需求?

为什么目前落地的主流SLAM技术很少用神经网络进行特征提取?

室内还是室外,地上跑的天上飞的还是水里游的,静态还是动态环境,里程计还是建图,等等..

还有一个容易被忽略的点:初始化。初始化分为静态初始化和动态初始化,静态初始化只适用于带imu的。

vins的单目动态初始化让我格外印象深刻,得瞅着一个地方剧烈的动弹几下才行;而msckf,kimera就更显佛系,在那呆着不动把imu初始状态维护好就行了。至于哪种初始化更好就是仁者见仁智者见智,萝卜白菜各有所爱,一千个读者有一千个哈姆雷特的事情了。

啥条件?

数据频率,传感器数量质量类型(钞能力),标定,时间对齐等等。没条件也呆胶布,不是还有那么多数据集嘛。​

3.没事走两步

把心仪的方案下载下来,编译配置,跑个demo。实践是检验吹牛的唯一标准。

那些经过普遍检验过的方法如果没跑出来,要么数据有问题,要么标定有问题,要么镜子里的吴彦祖有问题。

经过这一步之后,想必各位彦祖心里已经有信心了,就可以确定原型代码是哪篇了。​

4.读论文和代码

先看代码后看论文。论文有时候像渣男口里的情话,让人脸上不禁激荡起一抹少女般的红晕;有时候像孔乙己讨论“茴”有多少种写法,高深莫测,回味无穷。代码里10行搞定的事情,他再配上高端晦涩的公式若干和滔滔不绝的长篇大论,令无数信徒迫不及待地一键三连,献上虔诚的膝盖,竞相折腰。原本木讷呆板的理工生,此时竟也学会了花言巧语,一口一个大佬大佬的叫嚷着,让人心里暖暖的。而冷酷无情的代码却化身最后的轻语,让人沉默又破防。

好在,代码是论文的照妖镜。就算看不懂代码里的公式,但是他干什么用的一定能测出来,而论文则可能会因为先验知识的缺乏而令人摸不着头脑。正如阅人无数的海王,情场得意的高手,早已品尝过人生百态,世态炎凉,在轻易看透了对方那点小心思后,一切便尽在把握。毕竟比起他说的什么,我更相信他做的什么。

为什么自学编程那么难?

看完代码后再看论文,此时论文里的内容,像久别重逢的挚友,失而复得的旧爱,回头是岸的浪子,沸羊羊的美羊羊,柳暗花明,豁然开朗。

原作的心思就像少年的女神一样深不可测,捉摸不透,令人浮想联翩。不说原作,很多人可能甚至连上个星期自己写的代码都看不懂,蓦然回首,chatgpt竟比我更懂我。因此先不要死磕,能run就行,慢慢理解。如果前方有一堵墙,老实人会拿头撞得头破血流,皮开肉绽,而小机灵鬼,会避其锋芒,另辟蹊径。小心思我读不懂,但身体是诚实的。

先模块化调试,理解数据流在不同函数之间流转过程的产出,假以时日,黑箱变白箱。​

5.开始二创

想必到这一步时,脑子里肯定已经有很多idea了。如果还没有,可以继续看别人的二创,现在2024年出来的vio还是有点线特征这个思路的。因此,可以走别人的路,让别人无路可走。说不定你会化身芳心狙击手,你写的论文如蜜罐里的甜言蜜语,让审稿人小鹿乱撞,心神不宁,坐立不安,如痴如醉,辗转反侧,坠入爱河,仿佛回到那年夏天,看着十指相扣的TA。不知是一不小心还是欲拒还迎,被轻而易举的击中软肋,highlight和best paper就半推半就的献给了你。而你,我素未谋面的老熟人,翻身做了大佬,春风得意,容光焕发,便可在朋友圈里昭告天下,衣锦还乡。而企业里牛马们的二创基本是数据适配,框架重构,性能优化,基于自有场景corner case堆if,年会上鲜艳的大红花,说不定就能别在你笔挺的胸前,一想到刚满18岁的hr小姐姐的回眸一笑,是不是还有点小激动。​

6.知识迁移

slam领域就像家一样,里面个个都是人才,说话又好听,想必各位和我一样,超喜欢呆在里面的。

曾经的slam犹如正襟危坐的高冷女神,但在知识的传播中不断去魅,现在逐渐成为了平易近人的邻家小妹。这一篇换一下语言风格,转载搬运请私信,近期周更,家人们点点关注不迷路。


http://www.kler.cn/a/392036.html

相关文章:

  • 性能优化、安全
  • 更改Ubuntu22.04锁屏壁纸
  • 01-Ajax入门与axios使用、URL知识
  • ArcGIS Pro属性表乱码与字段名3个汉字解决方案大总结
  • C++20 中最优雅的那个小特性 - Ranges
  • Java 网络编程(一)—— UDP数据报套接字编程
  • python 京东api怎么写
  • 深入理解Java构造方法和接口:如何调用父类构造方法,接口能否包含方法实现?
  • MySQL缓存使用率超过80%的解决方法
  • 6.10 Queue接口/Deque接口 模拟栈与队列分析
  • 为什么谷歌SEO需要周期性维护?
  • 【excel】easy excel如何导出动态列
  • 离线安装GDAL与MapServer:在银河麒麟V10上的快速指南
  • [基础] 001 move的介绍
  • 机器学习:随机森林——基于决策树的模型
  • (蓝桥杯C/C++)——搜索
  • 036 RabbitMQ消息确认 死信队列 延时队列
  • 脑机接口、嵌入式 AI 、工业级 MR、空间视频和下一代 XR 浏览器丨RTE2024 空间计算和新硬件专场回顾
  • 接口测试框架+数据驱动
  • Fish Agent V0.13B:Fish Audio的语音处理新突破,AI语音助手的未来已来!
  • 集合类源码浅析のJDK1.8ConcurrentHashMap(上篇)
  • Go语言的并发安全与互斥锁
  • 使用cloudflare搭建私人docker镜像站
  • 【深圳大学/大学物理实验2】弗兰克-赫兹实验预习题参考
  • PL/SQL执行.sql文件
  • Go语言实现用户登录Web应用