当前位置：首页 > article >正文

学习经验分享【39】YOLOv12——2025 年 2 月 19 日发布的以注意力为核心的实时目标检测器

article 2025/2/24 2:59:28

YOLO算法更新速度很快，已经出到V12版本，后续大家有想发论文或者搞项目可更新自己的baseline了。

代码：GitHub - sunsmarterjie/yolov12: YOLOv12: Attention-Centric Real-Time Object Detectors

摘要：长期以来，增强 YOLO 框架的网络架构一直至关重要，但尽管注意力机制在建模能力方面已被证明具有优越性，此前的改进却一直集中在基于卷积神经网络（CNN）的方面。这是因为基于注意力机制的模型在速度上无法与基于 CNN 的模型相媲美。本文提出了一个以注意力机制为核心的 YOLO 框架，即 YOLOv12，它在利用注意力机制性能优势的同时，能够达到与之前基于 CNN 的模型相当的速度。YOLOv12 在精度上超越了所有流行的实时目标检测器，并且速度也极具竞争力。例如，YOLOv12-N 在 T4 GPU 上实现了 40.6% 的平均精度均值（mAP），推理延迟为 1.64 毫秒，在速度相当的情况下，其 mAP 比先进的 YOLOv10-N/YOLOv11-N 高出 2.1%/1.2%。这一优势也延伸到了其他模型规模。YOLOv12 还超越了改进自 DETR 的端到端实时检测器，如 RT-DETR/RT-DETRv2：YOLOv12-S 击败了 RT-DETR-R18/RT-DETRv2-R18，同时运行速度快 42%，仅使用了 36% 的计算量和 45% 的参数。

1 核心技术

区域注意力（Area Attention）：将图像分割为多个区域，默认纵向 / 横向 4 份，仅对区域间进行注意力计算。使计算量从²降至，计算成本减半，保持大视野的同时精度损失微小。
残差高效层聚合网络（R-ELAN）：引入残差连接和分层聚合设计，跨层传递特征增强信息流通，减少中间模块降低计算开销，加速梯度流动并稳定训练。
架构优化：取消最后阶段的三层堆叠改为单层 R-ELAN；用轻量级卷积替代全连接层；移除位置编码；调整 MLP 比例从 4:1 降至 1.2:1；引入 FlashAttention 解决注意力的内存访问问题，还引入大卷积核（7×7 卷积）增强位置感知能力。

2 性能优势

精度更高：在 COCO 数据集上，YOLOv12-N 在 T4 GPU 上实现了 40.6% 的平均精度（mAP），比 YOLOv11-N 高出 1.2% 的 mAP；YOLOv12-S 的 mAP 也高于 RT-DETR-R18 等模型。
速度相当或更快：YOLOv12-N 推理延迟为 1.64 毫秒，与 YOLOv11-N 速度相当；YOLOv12-S 比 RT-DETR-R18 快 42%。
资源占用少：YOLOv12-S 仅使用了 RT-DETR-R18 36% 的计算量和 45% 的参数；大模型如 YOLOv12-L/X 超越 RT-DETR 系列，参数量减少 37%-55%。

3 应用领域

YOLOv12 作为 YOLO 系列的最新版本，继承了 YOLO 系列的高效和快速，理论上可应用于 YOLO 算法的常见领域：

自动驾驶：用于实时检测道路上的行人、车辆、交通标志等，帮助自动驾驶系统做出安全驾驶决策。
视频监控：用于智能视频监控系统，检测公共场所中的可疑人员、丢失物品或暴力事件等，实现异常行为检测和预警。
机器人视觉：帮助机器人更准确地识别和理解周围环境中的物体，对机器人导航、抓取和操作等任务至关重要。
农业自动化：可由农业无人机或地面机器人携带摄像头拍摄农田图像，用于检测农作物病虫害，帮助农民及时发现并采取措施减少损失。
医疗影像分析：可探索用于某些医疗影像分析场景，如肺结节检测等，检测并标记出潜在的病灶区域。

精度更高：在 COCO 数据集上，YOLOv12-N 在 T4 GPU 上实现了 40.6% 的平均精度（mAP），比 YOLOv11-N 高出 1.2% 的 mAP；YOLOv12-S 的 mAP 也高于 RT-DETR-R18 等模型。
速度相当或更快：YOLOv12-N 推理延迟为 1.64 毫秒，与 YOLOv11-N 速度相当；YOLOv12-S 比 RT-DETR-R18 快 42%。
资源占用少：YOLOv12-S 仅使用了 RT-DETR-R18 36% 的计算量和 45% 的参数；大模型如 YOLOv12-L/X 超越 RT-DETR 系列，参数量减少 37%-55%。