学习经验分享【39】YOLOv12——2025 年 2 月 19 日发布的以注意力为核心的实时目标检测器
YOLO算法更新速度很快,已经出到V12版本,后续大家有想发论文或者搞项目可更新自己的baseline了。
代码:GitHub - sunsmarterjie/yolov12: YOLOv12: Attention-Centric Real-Time Object Detectors
摘要:长期以来,增强 YOLO 框架的网络架构一直至关重要,但尽管注意力机制在建模能力方面已被证明具有优越性,此前的改进却一直集中在基于卷积神经网络(CNN)的方面。这是因为基于注意力机制的模型在速度上无法与基于 CNN 的模型相媲美。本文提出了一个以注意力机制为核心的 YOLO 框架,即 YOLOv12,它在利用注意力机制性能优势的同时,能够达到与之前基于 CNN 的模型相当的速度。YOLOv12 在精度上超越了所有流行的实时目标检测器,并且速度也极具竞争力。例如,YOLOv12-N 在 T4 GPU 上实现了 40.6% 的平均精度均值(mAP),推理延迟为 1.64 毫秒,在速度相当的情况下,其 mAP 比先进的 YOLOv10-N/YOLOv11-N 高出 2.1%/1.2%。这一优势也延伸到了其他模型规模。YOLOv12 还超越了改进自 DETR 的端到端实时检测器,如 RT-DETR/RT-DETRv2:YOLOv12-S 击败了 RT-DETR-R18/RT-DETRv2-R18,同时运行速度快 42%,仅使用了 36% 的计算量和 45% 的参数。
1 核心技术
- 区域注意力(Area Attention):将图像分割为多个区域,默认纵向 / 横向 4 份,仅对区域间进行注意力计算。使计算量从²降至,计算成本减半,保持大视野的同时精度损失微小。
- 残差高效层聚合网络(R-ELAN):引入残差连接和分层聚合设计,跨层传递特征增强信息流通,减少中间模块降低计算开销,加速梯度流动并稳定训练。
- 架构优化:取消最后阶段的三层堆叠改为单层 R-ELAN;用轻量级卷积替代全连接层;移除位置编码;调整 MLP 比例从 4:1 降至 1.2:1;引入 FlashAttention 解决注意力的内存访问问题,还引入大卷积核(7×7 卷积)增强位置感知能力。
2 性能优势
- 精度更高:在 COCO 数据集上,YOLOv12-N 在 T4 GPU 上实现了 40.6% 的平均精度(mAP),比 YOLOv11-N 高出 1.2% 的 mAP;YOLOv12-S 的 mAP 也高于 RT-DETR-R18 等模型。
- 速度相当或更快:YOLOv12-N 推理延迟为 1.64 毫秒,与 YOLOv11-N 速度相当;YOLOv12-S 比 RT-DETR-R18 快 42%。
- 资源占用少:YOLOv12-S 仅使用了 RT-DETR-R18 36% 的计算量和 45% 的参数;大模型如 YOLOv12-L/X 超越 RT-DETR 系列,参数量减少 37%-55%。
3 应用领域
YOLOv12 作为 YOLO 系列的最新版本,继承了 YOLO 系列的高效和快速,理论上可应用于 YOLO 算法的常见领域:
- 自动驾驶:用于实时检测道路上的行人、车辆、交通标志等,帮助自动驾驶系统做出安全驾驶决策。
- 视频监控:用于智能视频监控系统,检测公共场所中的可疑人员、丢失物品或暴力事件等,实现异常行为检测和预警。
- 机器人视觉:帮助机器人更准确地识别和理解周围环境中的物体,对机器人导航、抓取和操作等任务至关重要。
- 农业自动化:可由农业无人机或地面机器人携带摄像头拍摄农田图像,用于检测农作物病虫害,帮助农民及时发现并采取措施减少损失。
- 医疗影像分析:可探索用于某些医疗影像分析场景,如肺结节检测等,检测并标记出潜在的病灶区域。
- 精度更高:在 COCO 数据集上,YOLOv12-N 在 T4 GPU 上实现了 40.6% 的平均精度(mAP),比 YOLOv11-N 高出 1.2% 的 mAP;YOLOv12-S 的 mAP 也高于 RT-DETR-R18 等模型。
- 速度相当或更快:YOLOv12-N 推理延迟为 1.64 毫秒,与 YOLOv11-N 速度相当;YOLOv12-S 比 RT-DETR-R18 快 42%。
- 资源占用少:YOLOv12-S 仅使用了 RT-DETR-R18 36% 的计算量和 45% 的参数;大模型如 YOLOv12-L/X 超越 RT-DETR 系列,参数量减少 37%-55%。