当前位置: 首页 > article >正文

SAM 2:分割图像和视频中的任何内容

文章目录

  • 摘要
  • 1 引言
  • 2 相关工作
  • 3 任务:可提示视觉分割
  • 4 模型
  • 5 数据
    • 5.1 数据引擎
    • 5.2 SA-V数据集
  • 6 零样本实验
    • 6.1 视频任务
      • 6.1.1 提示视频分割
      • 6.1.2 半监督视频对象分割
      • 6.1.3 公平性评估
    • 6.2 图像任务
  • 7 与半监督VOS的最新技术的比较
  • 8 数据和模型消融
    • 8.1 数据消融
    • 8.2 模型架构消融
      • 8.2.1 容量消融
      • 8.2.2 相对位置编码
      • 8.2.3 记忆架构消融
  • 9 结论
  • 10 致谢
  • 附录
    • A PVS任务的细节
    • B 局限性
    • C SAM 2细节
      • C. 1 架构
      • C. 2 训练
        • C.2.1 预训练
        • C.2.2 全面训练
      • C. 3 速度基准测试
    • D 数据细节
      • D. 1 SA-V数据集细节
      • D.2 数据引擎细节
        • D.2.1 注释协议
        • D.2.2 数据引擎阶段比较
    • E 关于零样本转移实验的更多细节
    • E.1 零样本视频任务
        • E.1.1 视频数据集细节
        • E.1.2 交互式离线和在线评估细节
      • E.1.3 半监督VOS评估细节
        • E.1.4 SAM+XMem++和SAM+Cutie基线细节
      • E.2 DAVIS交互式基准测试
      • E.3 零样本图像任务
        • E.3.1 数据集细节
        • E.3.2 详细的零样本实验
    • F 在半监督VOS中与最新技术的比较的更多细节
    • G 模型、数据和注释卡片
      • G. 1 模型卡片
      • G. 2 SA-V数据集卡片
      • G.3 数据注释卡片

摘要

我们提出了“Segment Anything Model 2”(SAM 2),这是一种基础模型,旨在解决图像和视频中的可提示视觉分割问题。我们构建了一个数据引擎,该引擎通过用户交互改进模型和数据,以收集迄今为止最大的视频分割数据集。我们的模型采用带有流式内存的简单变换器架构,适用于实时视频处理。使用我们的数据进行训练的SAM 2在广泛的任务中表现出色。在视频分割方面,我们观察到比先前方法更高的准确性,同时所需的交互次数减少了 3 3 3倍。在图像分割方面,我们的模型比“Segment Anything Model”(SAM)更准确,速度快了


http://www.kler.cn/a/303804.html

相关文章:

  • 卷积神经网络之Yolo详解
  • [DEBUG] 服务器 CORS 已经允许所有源,仍然有 304 的跨域问题
  • K8S单节点部署及集群部署
  • 《Python网络安全项目实战》项目5 编写网站扫描程序
  • 从华为到创业公司
  • 简单叙述 Spring Boot 启动过程
  • ERP进销存多仓库管理系统源码 带完整的安装代码包以及搭建部署教程
  • Unity Timeline
  • HTTP 协议和 APACHE 服务
  • 零基础国产GD32单片机编程入门(二十五)USB口介绍及CDC类虚拟串口通讯详解及源码
  • 【深入浅出Redis】Redis常见问题以及解决方案,可用于面试
  • RK_android8.1在设置中去掉Bluetooth功能
  • 学习笔记 - 知识图谱的符号表示方法
  • Python去除图片中的白色像素点背景
  • David Baker 任科学顾问,初创公司发布世界最大蛋白质相互作用数据库,已获 8 轮融资
  • WPS如何删除表格下的空白页
  • 常见的站长工具接口有哪些?站长们该如何选择?
  • uniapp child.onFieldChange is not a function
  • Android Studio 安装配置教程(Windows最详细版)
  • uview-plus 表单校验 相关字段有数据有值的情况下非空验证失败问题
  • 【Go】Go语言基本语法--注释、变量、常量
  • 023.PL-SQL进阶—视图
  • Quartz_将持久化配置写在appsettings.json中
  • LSS如何做深度和语义预测
  • ROS CDK魔法书:建立你的游戏王国(Csharp篇)
  • 几种mfc140u.dll常见错误情况,以及mfc140u.dll文件修复的方法