当前位置：首页 > article >正文

YOLOv12：以注意力为中心的物体检测

article 2025/2/24 11:19:43

YOLOv12是YOLO系列中的最新版本，它引入了一种以注意力为中心的架构，旨在进一步提升物体检测的精度和速度。相比以往的YOLO模型，YOLOv12摒弃了传统基于卷积神经网络（CNN）的结构，采用了全新的方法，融合了自注意力机制和高效的网络架构优化，提供了一个高精度、低延迟的实时目标检测模型。

1. 主要功能

YOLOv12在多个关键点进行了优化和创新，以下是它的主要功能：

1.1 区域注意机制 (Region Attention Mechanism)

区域注意机制是一种全新的自我注意方法，能够有效地处理大的感受野。在YOLOv12中，特征图被划分为多个大小相等的区域（默认为4个区域），这样就避免了传统自注意计算中存在的复杂操作，并保持了较大的有效感受野。这种方法显著降低了计算成本，同时保持了图像细节的完整性。

优势：
- 高效性：通过对特征图的划分和局部计算，减少了计算量和内存开销。
- 扩展感受野：即便在减少计算量的同时，模型依然能够提取大范围的特征，保证了检测的精度。

1.2 剩余效率层聚合网络（R-ELAN）

R-ELAN是YOLOv12中引入的一种改进型特征聚合模块，旨在解决注意力为核心的大规模模型中出现的优化难题。通过引入块级残差连接（类似于图层缩放）和缩放功能，R-ELAN提高了网络的特征聚合能力和计算效率。

优势：
- 稳定性：通过残差连接，减少了梯度消失问题，确保了模型训练的稳定性。
- 高效聚合：改进的特征聚合方法进一步增强了网络对复杂特征的捕捉能力。

1.3 优化注意力架构

YOLOv12对标准的注意力机制进行了简化和优化，使其更加高效且与YOLO框架兼容。关键优化包括：

FlashAttention：减少内存访问开销，提升推理速度。
去除位置编码：通过去除传统的位置信息编码，简化了模型结构，加快了计算过程。
调整MLP比例：调整MLP（多层感知机）比例，更好地平衡注意力层和前馈层之间的计算开销。
减少堆叠区块的深度：通过减少堆叠区块的深度，进一步优化模型训练效果。
7x7可分离卷积：在注意力机制中引入7x7可分离卷积（"位置感知器"），对位置信息进行隐式编码，增强了空间信息的表达。

1.4 全面的任务支持

YOLOv12不仅仅支持物体检测，还能处理多个核心的计算机视觉任务，如：

物体检测（Object Detection）
实例分割（Instance Segmentation）
图像分类（Image Classification）
姿态估计（Pose Estimation）
定向物体检测（OBB - Oriented Bounding Box）

每个任务都可以在推理、验证、训练和输出模式下进行，提供了广泛的适用场景。

1.5 更高的效率

YOLOv12在速度和精度之间取得了更好的平衡，相比早期的YOLO版本，它在减少参数数量的同时，实现了更高的精度。比如，在COCO数据集上的物体检测任务中，YOLOv12的mAP（mean Average Precision）得到了显著提升，尤其是在YOLO12s、YOLO12m和YOLO12l等型号上，精度和速度都有了很大的优化。

1.6 灵活部署

YOLOv12可以灵活地部署在各种硬件平台上，从低功耗的边缘设备到高性能的云基础设施，都是它支持的部署环境。这使得YOLOv12非常适合用在如自动驾驶、智能监控、机器人等领域。

2. 性能指标

YOLOv12在多个模型尺度上相较于之前的版本，提供了显著的性能提升。以COCO val2017数据集为例，YOLO12在多个尺寸（如YOLO12n、YOLO12s、YOLO12m等）上展示了在精度和推理速度上的良好平衡。

例如：

YOLO12n：在速度上可能有所折衷，但在所有尺度上精度都有显著提升，mAP达到了40.6%。
YOLO12s：提供了48%的mAP，并且相比RT-DETRv2速度提高了42%。
YOLO12m：在YOLO11m的基础上，mAP提升了1.0%，速度变化幅度为-3%。

这些指标显示出YOLO12在追求更高精度的同时，保持了优越的实时推理速度，尤其是在GPU上使用TensorRT FP16精度时，性能表现尤为突出。

3. 使用示例

最新的PiscTrace已经支持YOLO12,下列图片从左到右依次为8n，11n，12n的识别结果。

4. 主要改进和优化

增强型特征提取：通过区域关注机制有效处理大型感受野，并降低计算成本。
R-ELAN架构：强化特征聚合，改进了特征整合方法，稳定了训练。
FlashAttention：通过优化内存访问，提升了推理速度。
优化的注意力机制：简化了注意力计算，提升了整体效率。

5. 硬件要求

YOLO12默认不依赖FlashAttention，但如果需要，用户可以通过编译FlashAttention来进一步提升效率。FlashAttention特别适用于NVIDIA的图形处理器，如T4、RTX30系列和RTX40系列等图形处理器。

6. 结论

YOLOv12作为YOLO系列的最新版本，凭借创新的区域注意机制、R-ELAN架构和优化的注意力架构，在目标检测精度和推理速度之间取得了良好的平衡。其多任务支持、跨平台部署能力以及高效的计算性能，使其成为现代计算机视觉领域中一个非常有前景的模型。无论是对于研究者、开发者，还是工业应用，YOLOv12都提供了一个高效且灵活的物体检测解决方案。

PiscTrace适配YOLO12

查看全文

http://www.kler.cn/a/558837.html