当前位置: 首页 > article >正文

【NIPS24】【Open-Ended Object Detection】VL-SAM


论文:https://arxiv.org/abs/2410.05963

代码:暂未提供


摘要

本文介绍了一种名为VL-SAM的训练免费框架,用于解决开放性物体检测和分割任务。该框架结合了通用对象识别模型(MLLM)和通用对象定位模型(SAM),并通过使用注意力映射作为提示连接这两个通用模型。实验结果表明,VL-SAM在LVIS数据集上的表现优于之前的方法,并且可以在真实世界应用中提供额外的实例分割掩模。此外,VL-SAM具有良好的模型泛化能力,可以集成各种VLM和SAM。

1ff7c84cef0f08082a015b4109c4ca55.png

论文速读

方法描述

本文提出的VL-SAM框架是一种基于视觉语言模型(VLM)和场景分割模型(SAM)的对象识别与定位方法。首先使用VLM来描述图像并列出所有可能存在的对象,然后针对每个对象使用注意力生成模块结合头聚合和注意力流来获取高质量的关注图,并将其转换为点提示发送给SAM以获得位置预测。该方法的关键在于如何生成高质量的关注图,因此引入了注意力流来聚合和传播注意力图通过VLM中的所有transformer头部和层。在注意力流中,先将查询和键乘以因果掩码和SoftMax归一化,得到相似度矩阵S,再通过选择每列的最大相似权重来进行注意力头权重计算。最后,使用注意力滚动方法来进一步聚合来自所有层的注意力,并选择最后一层的注意力图作为对象关注图。

26593256ed50161cef45e0a7bd0e7ca7.png

方法改进

为了解决VLM自动回归生成方法导致的注意力塌陷问题,提出了一个简单的正则化项,可以有效地缓解这个问题。此外,在使用SAM进行物体分割时,由于可能存在不稳定的假阳性区域,因此需要对其进行过滤。为此,首先使用阈值滤除弱激活区域,并找到最大连通区域作为正区域,其余区域作为负区域。然后,从正区域中随机采样一个正点,从负区域中随机采样一个负点,作为SAM的点提示对。对于迭代策略,采用了两次迭代来进一步细化分割结果,分别采用了PerSAM中的级联后处理和利用先前生成的分割掩模来遮挡注意力图,并不断迭代生成新的正负对,然后将它们送入SAM解码器,最终通过NMS进行聚合。

另外,为了克服VLM低分辨率输入图像可能导致无法识别小物体的问题,采用了SPHINX中的多尺度融合方法,将图像分成四个子图像,并独立地将每个子图像发送到VL-SAM中,最后将四个子图像的输出和整个图像的输出进行融合。此外,还使用了VLM生成的十个问题提示来描述输入图像,以获得更全面的图像描述,并将其用于VL-SAM中的对象识别和定位。

解决的问题

本文提出的VL-SAM框架主要解决了两个问题:对象识别和定位。对于对象识别,通过使用VLM来描述图像并列出所有可能存在的对象,可以准确地识别出图像中存在的对象。而对于对象定位,则通过使用注意力生成模块结合头聚合和注意力流来获取高质量的关注图,并将其转换为点提示发送给SAM以获得位置预测,从而实现了精确的对象定位。同时,本文也提出了一些改进措施,如使用正则化项缓解注意力塌陷问题、使用阈值过滤假阳性区域以及采用多尺度融合和问题提示等方法来提高对象识别和定位的准确性。

ee8bae88291c012174506717b9841e64.png

论文实验

本文主要介绍了VL-SAM(Vision-Language Segmentation Model)这一训练免费的零样本检测框架,并通过多个实验对其性能进行了评估和比较。

首先,在LVIS数据集上,作者将VL-SAM与GenerateU等其他方法进行了比较。他们使用了固定AP来衡量罕见物体的检测性能,并发现VL-SAM在该任务中表现优于GenerateU,具有更好的检测和分割性能。此外,VL-SAM还能够在不需要预先定义对象类别的情况下生成这些类别,因此更加实用。

de4c514a529787364f31f4d12a317bbd.png

其次,在CODA数据集上,作者将VL-SAM与其他开放域检测器进行了比较。结果表明,当前基于对象提议的开放域检测器难以处理角落情况,而依靠CLIP作为对象类别预测器的方法则表现更好。然而,LLaVA-Grounding等最近的开放域检测器需要联合训练两个模型,增加了训练成本。相比之下,VL-SAM是一种训练免费的框架,可以在没有额外训练成本的情况下显著提高性能。

3f77faad174dec34650fb067bda5db4b.png

最后,作者还进行了消融研究,分析了VL-SAM各个组件的效果。结果显示,每个组件都对最终性能有重要影响。例如,引入注意力生成模块可以显著提高基线性能,而迭代精炼模块则可以进一步提高检测性能。同时,多尺度图像输入和问题提示的组合也能够带来显著的性能提升。

0b55088c560d8d46c98acf4d20966c18.png 5d0a1218a060aff57e3f4d4592d7e4fd.png

总的来说,VL-SAM在各种实验中都表现出色,证明了其作为一种零样本检测框架的有效性和实用性。


http://www.kler.cn/news/367356.html

相关文章:

  • jupyter notebook改变默认启动路径
  • Linux功法之文件切割术
  • 【K8S系列】Kubernetes Service 基础知识 详细介绍
  • 【elkb】linux麒麟v10安装ELKB 8.8.X版本(ARM架构)
  • AJAX—— jQuery 发送 AJAX 请求
  • 计数问题(csp2023)
  • 【从零开始】2. Dell PowerEdge 人工智能服务搭建(番外篇)
  • 【MySQL】索引和事务
  • mongodb 导入导出索引--查询慢问题
  • 4404 - 提高:二分与三分:曲线(三分)
  • 企业数据高效集成案例:钉钉到MySQL的数据同步
  • C语言二刷指针篇
  • 安装 Pycharm-Community
  • 【数据结构】贪心算法:决策的艺术
  • 厨艺交流平台:Spring Boot技术实践案例
  • springboot061基于B2B平台的医疗病历交互系统(论文+源码)_kaic
  • 基于SSM+微信小程序的社区垃圾回收管理系统(垃圾1)
  • 轻松构建高效 API:FastAPI 的主要特点与实战应用20241027
  • JDK、JRE、JVM之间的关系
  • sudo chroot raw-rootfs
  • git 工具 gitk tig
  • 提升数据处理效率:TDengine S3 的最佳实践与应用
  • AGI 之 【Dify】 之 Dify 在 Windows 端本地部署调用 Ollama 本地下载的大模型,实现 API 形式进行聊天对话
  • 【数据结构】宜宾大学-计院-实验五
  • 《车辆损毁数据评估方案全指南》
  • OTP一次性密码、多因子认证笔记