当前位置：首页 > article >正文

【论文阅读】SAM-CP：将SAM与组合提示结合起来的多功能分割

article 2025/2/23 22:16:27

导言

近年来，视觉基础模型的快速发展推动了多模态理解的进步，尤其是在图像分割任务中。例如，Segment Anything模型（SAM）在图像Mask分割上表现出色，但在语义及实例分割方面仍存在局限。本文提出的SAM-CP，通过引入可组合的提示机制，显著增强了模型在复杂场景下的语义理解能力。这一方法不仅提高了分割任务的灵活性和准确性，也为视觉模型在开放词汇和实例识别中的应用提供了新的思路，使其在多种视觉任务中具有更广泛的适用性。

1 论文简介

论文题目：
SAM-CP: Marrying SAM with Composable Prompts for Versatile Segmentation

研究领域：
计算机视觉、语义分割、实例分割、多模态

论文作者：
Pengfei Chen, Lingxi Xie, Xinyue Huo, Xuehui Yu, Xiaopeng Zhang, Yingfei Sun, Zhenjun Han, Qi Tian

论文链接：
https://arxiv.org/abs/2407.16682

论文来源;
ICLR 2025

2 论文主要方法

2.1 理论概念

本文提出SAM-CP（SAM-Composable Prompts）方法，通过组合两组提示来执行分割任务。

提示一，判断SAM分割的Mask是否与给定的文本标签对齐。
在这里插入图片描述

提示二，判断同一类别下的Mask是否属于同一实例。

针对已经通过提示一标记的Mask，计算Mask组之间的相似度
依据相似度将Mask组进一步分组，以确定相同实例的目标集合
遍历得到的补丁集合，首先进行语义标注，然后进一步将同一实例进行分组，实现语义分割和实例分割。

2.2 网络架构

Patch Encoder：负责将Mask转换成特征向量
Unified Affinity Decoder：处理相似性匹配，合并相似的
Mask Affinity Calculation：计算Mask组之间的亲和力
Category Assign：进行最终的Mask组分类

2.3 实验效果

在这里插入图片描述

3 论文针对的问题

SAM模型在高效分割视觉内容方面表现出色，但在语义分割和实例分割任务中仍面临挑战。具体而言，SAM可能会将同一对象过度分割为多个补丁，导致很难确定哪些补丁属于同一实例。此过度分割现象不仅增加了后续标签和处理的复杂性，也影响了模型在具体应用中对场景的准确理解和识别。

尽管当前有多种方法尝试改进SAM在分割任务中的表现，但大部分方法依赖于其他单独的模型进行Mask的提取，从而限制了SAM作为基础模型的独立和有效性。这种方式会降低SAM的作用，不利于其在更复杂语义任务中的灵活应用，进而影响整个视觉识别系统的性能和效率。
在这里插入图片描述

4 论文创新点

本文的创新点主要体现在提出了一种名为SAM-CP的全新方法，该方法通过引入可组合的提示（composable prompts）来增强SAM模型的语义分割和实例分割能力。其创新包括：

两类型提示的设计：通过设计两种提示，Prompt I用于判断SAM产生的补丁是否与给定的文本标签对齐，而Prompt II用于确定两个补丁是否属于同一实例。这样的设计优化了对补丁的分组与标注，解决了SAM在实例分割任务中的过度分割问题。
统一的亲和力框架：本文建立了一个统一的亲和力框架，结合不同的提示输出，不仅提升了语义分割和实例分割的准确性，还实现了更高效的训练和推理。这种方法能够处理开放词汇和闭合领域的分割任务，拓展了SAM在多模态理解中的应用范围。