当前位置: 首页 > article >正文

【论文速看】DL最新进展20241112-3D、异常检测、车道线检测

目录

    • 【3D】
    • 【异常检测】
    • 【车道线检测】

【3D】

[2024] WildOcc: A Benchmark for Off-Road 3D Semantic Occupancy Prediction

论文链接:https://arxiv.org/pdf/2410.15792

代码链接:https://github.com/LedKashmir/WildOcc

3D语义占用预测是自动驾驶的重要组成部分,专注于捕捉场景的几何细节。非道路环境富含几何信息,因此适用于3D语义占用预测任务来重建这些场景。然而,大多数研究集中在道路环境上,由于缺乏相关的数据集和基准,很少有方法专门为非道路3D语义占用预测设计。为了弥补这一空白,文中引入了WildOcc,据我们所知,这是第一个为非道路3D语义占用预测任务提供密集占用注释的基准。本文提出了一个地面真实生成pipeline,该管线采用从粗到细的重建方法以实现更真实的结果。此外,作者引入了一个多模态3D语义占用预测框架,该框架在体素级别融合了来自多帧图像和点云的时空信息。此外,还引入了一种跨模态蒸馏功能,它将几何知识从点云转移到图像特征中。

在这里插入图片描述
数据集介绍
在这里插入图片描述
在这里插入图片描述
实验结果
在这里插入图片描述


【异常检测】

[ECCV 2024] VL4AD: Vision-Language Models Improve Pixel-wise Anomaly Detection

论文链接:https://arxiv.org/pdf/2409.17330

代码链接:参考https://github.com/bytedance/fc-clip

语义分割网络在假设数据独立同分布的情况下取得了显著的成功。然而,这些网络通常难以检测未知语义类别的异常,因为它们通常只在有限的视觉概念集上进行训练。为了解决这个问题,异常分割通常涉及对离群样本进行微调,这需要额外的数据收集、标注和模型重新训练的努力。为了避开这种繁琐的工作,文中采取了不同的方法,提出将视觉-语言(VL)编码器纳入现有的异常检测器中,以利用语义广泛的VL预训练来提高离群感知能力。此外,作者提出了一种新的评分函数,通过文本提示实现无需数据和训练的离群监督。由此产生的VL4AD模型包括最大对数概率提示集成和类别合并策略,在广泛使用的基准数据集上实现了具有竞争力的性能,从而展示了视觉-语言模型在像素级异常检测中的潜力。

在这里插入图片描述

在这里插入图片描述

实验结果
在这里插入图片描述

在这里插入图片描述


【车道线检测】

[2024] Polar R-CNN: End-to-End Lane Detection with Fewer Anchors

论文链接:https://arxiv.org/pdf/2411.01499

代码链接:https://github.com/ShqWW/PolarRCNN

车道检测是自动驾驶中一项关键且具有挑战性的任务,特别是在现实世界的场景中,交通车道可能狭窄、漫长,并且经常被其他车辆遮挡,这使得检测工作变得更加复杂。现有的基于锚点的方法通常依赖于先验车道锚点来提取特征,并随后细化车道的位置和形状。虽然这些方法取得了高性能,但手动设置先验锚点是繁琐的,而要确保在不同数据集上有足够的覆盖范围,通常需要大量的密集锚点。此外,使用非极大值抑制(NMS)来消除冗余预测使得在现实世界中的部署变得复杂,并且在复杂场景中表现不佳。文中提出了Polar R-CNN,一种端到端的基于锚点的车道检测方法。通过结合局部和全局极坐标系,Polar R-CNN促进了灵活的锚点建议,并显著减少了所需锚点的数量,同时不妥协性能。通过引入一个带有启发式结构的三元头,支持无NMS范式,从而提高了在密集场景中的部署效率和性能。该方法在五个流行的车道检测基准上取得了具有竞争力的结果,包括Tusimple、CULane、LLAMAS、CurveLanes和DL-Rai,同时保持了轻量级设计和简单的结构。

在这里插入图片描述

实验结果
在这里插入图片描述
在这里插入图片描述



http://www.kler.cn/a/390540.html

相关文章:

  • Python科学计算的利器:Scipy库深度解析
  • [滑动窗口] 长度最小的子数组, 无重复字符的最长子串, 最大连续1的个数③
  • SQL Server 索引如何优化?
  • 使用轻易云平台高效集成聚水潭与南网订单数据
  • 侯宗原国学退费:学会易理摆脱精神内耗
  • 揭开 gRPC、RPC 、TCP和UDP 的通信奥秘
  • Chrome与火狐哪个浏览器的移动版本更流畅
  • Unity3D 帧同步定点数物理引擎解决方案详解
  • 树-好难-疑难_GPT
  • spark的学习-04
  • 人工智能在智能家居中的应用
  • 【分布式事务】二、NET8分布式事务实践: DotNetCore.CAP 框架 、 消息队列(RabbitMQ)、 多类型数据库(MySql、MongoDB)
  • cmake同名无法创建(已解决,未深入探究)
  • Spring MVC 面试常问问题
  • 第三百二十一节 Java线程教程 - Java线程状态、Java原子变量
  • 2024.11最新Hexo+GitHub搭建个人博客
  • 网络安全渗透测试的相关理论和工具
  • dhcp和ftp
  • 设计模式之模版方法模式(Template)
  • 在CentOS下安装RabbitMQ