当前位置: 首页 > article >正文

YOLO-World: Real-Time Open-Vocabulary Object Detection:实时开放词汇对象检测

YOLO系列探测器已成为高效实用的工具。然而,它们对预定义和训练的对象类别的依赖限制了它们在开放场景中的适用性。针对这一限制,我们引入了YOLO-World,这是一种创新方法,通过视觉语言建模和大规模数据集的预训练,增强了YOLO的开放词汇检测功能。具体来说,我们提出了一个新的Re-parameterizable视觉语言路径聚合网络(RepVL-PAN)和区域-文本对比损失,以促进视觉和语言信息之间的交互。我们的方法擅长以零拍摄的方式检测各种物体,效率很高。在具有挑战性的LVIS数据集上,YOLO-World在V100上实现了35.4 AP和52.0 FPS,在准确性和速度方面优于许多最先进的方法。此外,经过微调的YOLO-World在多个下游任务上取得了出色的性能,包括对象检测和开放实例词汇分割。

 

检测模式的比较。(a)传统的对象检测器:这些对象检测器只能检测由训练数据集预定义的固定词汇表内的对象,例如,COCO数据集的80个类别。固定的词汇限制了开放场景的扩展。(b)以往的开放词汇检测器:以往的方法倾向于开发大而重的检测器,用于直观地具有很强的能力的开放词汇检测。此外,这些检测器同时对图像和文本进行编码作为用于预测的输入,这对于实际应用来说是耗时的。(c)YOLO-World:我们展示了轻量级探测器强大的开放式词汇表现,例如:YOLO探测器,这对于实际应用具有重要意义。本文提出了一种基于提示-检测的推理模式,用户根据需要生成一系列的提示信息,并将这些提示信息编码成离线词汇表,而不使用在线词汇表。然后,可以将其重新参数化为模型权重,以便进行部署和进一步加速。


http://www.kler.cn/news/289024.html

相关文章:

  • QT教程-十七,QTextBrowser
  • dnsperf测试dns性能
  • 春秋云镜initial
  • c++----杨辉三角(补充)
  • 学懂C++(五十一): C++ 陷阱:详解多重继承与钻石继承引发的二义性问题
  • 上门家政系统源码开发详解
  • 界面控件Telerik UI for ASP.NET Core 2024 Q2亮点 - AI与UI的融合
  • Unified-IoU:用于高质量对象检测
  • 教你手机投屏到电视方法,用电视屏幕让家庭蛋糕制作更有趣
  • 数据结构-了解树和二叉树
  • 科研绘图系列:python语言聚类图(hclust plot)
  • mysql高级知识之集群
  • Ascend C算子开发(入门)—— 算子开发初体验
  • C++笔记---模板初阶
  • 论文速览【LLM】 —— 【ORLM】Training Large Language Models for Optimization Modeling
  • 多线程——创建
  • UDP广播、 组播通信
  • macos 使用port查询并安装python2, python3多版本, 设置默认python版本方法
  • 算法训练营|图论第8天 拓扑排序 dijkstra
  • 【笔试练习】深信服校园招聘c/c 软件开发H卷
  • 使用python导出Excel表格中的lua配置
  • 初识Linux · 有关makefile
  • 【Rust光年纪】化学计算不完全指南:Rust语言库全面解析
  • jenv 一款macos下的开源JAVA多版本环境安装管理切换工具
  • Swift concurrency 5 — async let的理解与使用
  • 聊聊随机测试和猴子测试
  • Python参数传递的艺术:解锁编程灵活性的秘密武器
  • uniapp写的一个年月日时分秒时间选择功能
  • 【数据结构初阶】——栈和队列
  • 求三元组中可能出现的最小距离