计算机视觉 目标检测 实时推理

YOLOv12

Attention-Centric Real-Time Object Detectors

以注意力机制为核心的实时目标检测框架

Yunjie Tian · University at Buffalo
Qixiang Ye · University of Chinese Academy of Sciences
David Doermann · University at Buffalo

arXiv 2025 Technical Report

github.com/sunsmarterjie/yolov12

摘要

长期以来,改进 YOLO 框架的网络架构始终是核心课题,但相关研究始终聚焦于基于 CNN 的优化,尽管注意力机制已被证实具有更强的建模能力。这主要源于注意力模型无法匹敌 CNN 模型的速度优势。

核心问题

注意力机制计算复杂度高、内存访问效率低,导致在相似计算预算下,CNN 架构速度优于注意力架构约 3 倍

本文方案

提出以注意力机制为核心的 YOLO 框架 —— YOLOv12,在保持与先前 CNN 模型相当速度的同时,充分发挥注意力机制的性能优势

YOLOv12-N 在 T4 GPU 上以 1.64 ms 的推理延迟实现 40.6% mAP,较先进的 YOLOv10-N / YOLOv11-N 分别提升 2.1% / 1.2% mAP

引言:研究背景与动机

YOLO 系列的发展

  • YOLO 系列始终是实时目标检测领域的主流框架
  • 从 YOLOv1 到 YOLOv11,架构改进主要基于 CNN
  • 近期工作引入注意力机制,但仍以 CNN 为主干

注意力机制的优势

  • ViT 中展现了强大的全局建模能力
  • 在小模型中也证明了优越性
  • 但计算复杂度和内存访问效率是瓶颈

核心挑战

注意力机制在 YOLO 系统中应用受限的两大原因:

1. 二次计算复杂度
Self-attention 的计算量随输入长度平方增长
2. 内存访问效率低
注意力矩阵的读写速度成为瓶颈(FlashAttention 主要解决的问题)

本文主要贡献

1
区域注意力模块 (A²)
通过简单分区方式保持大感受野,降低注意力计算复杂度
2
残差高效层聚合网络 (R-ELAN)
引入残差设计和重新设计的特征聚合方法,解决优化挑战
3
架构优化
FlashAttention、调整 MLP 比例、大核可分离卷积等改进

性能突破

YOLOv12 在准确率上超越所有主流实时目标检测器,同时保持竞争力速度

效率优势

YOLOv12-S 击败 RT-DETR-R18,速度快 42%,仅需 36% 计算量和 45% 参数量

多尺度覆盖

提供 N/S/M/L/X 五种模型规模,覆盖从边缘设备到高性能服务器的全场景

方法:区域注意力模块 (Area Attention)

核心思想

将特征图沿垂直或水平方向等分为 l 个区域(默认 l=4),避免复杂操作的同时确保大感受野

复杂度降低
从 O(n²hd) 降低到 O(½n²hd)
在 n=640 时仍满足实时要求

与其他局部注意力对比

  • Shift Window: 引入额外开销
  • Criss-cross: 减小感受野
  • Axial Attention: 复杂操作多
  • Area Attention (Ours): 最简单直接的等分方式
Area Attention

图2:区域注意力与其他局部注意力机制对比

特征图分区方式:

将 (H, W) 特征图分为 l 个区域,每个区域大小为 (H/l, W) 或 (H, W/l)

方法:残差高效层聚合网络 (R-ELAN)

ELAN 旨在改进特征聚合,但存在梯度阻塞缺乏残差连接的问题。围绕注意力机制构建网络还带来额外的优化挑战。

R-ELAN 两大改进

1. 块级残差设计

引入从输入到输出的残差连接,带缩放因子(默认 0.01),类似层缩放技术

2. 重新设计的特征聚合

先通过过渡层调整通道维度产生单特征图,再经后续块和拼接形成瓶颈结构

架构对比

CSPNet
过渡层 → 拆分 → 块处理 → 拼接
ELAN
过渡层 → 拆分 → 多分支卷积 → 拼接
C3K2
过渡层 → 拆分 → 块×n → 拼接 → 过渡
R-ELAN (Ours)
过渡层 → 单特征图 → 块处理 → 残差连接(+scaling)
关键优势:解决了 L 和 X 尺度模型的收敛问题,即使使用 Adam/AdamW 也能稳定训练

方法:架构优化细节

FlashAttention

引入 FlashAttention 克服注意力机制的内存访问问题,减少 HBM 读写,提升计算效率

MLP 比例调整

将传统注意力中的 MLP 比例从 4 调整为 1.2(N/S/M 模型用 2),更好分配计算资源

Conv2d + BN

采用 nn.Conv2d+BN 替代 nn.Linear+LN,充分利用卷积算子的计算效率

位置感知器

引入 7×7 大核可分离卷积(Position Perceiver)帮助区域注意力感知位置信息

去除位置编码

移除传统位置编码设计,简化架构,实验表明无位置编码配置性能最佳

层次化设计

保留 YOLO 的层次化设计,移除最后阶段的三块堆叠,仅保留单个 R-ELAN 块

实验:与主流方法对比

在 MS COCO 2017 数据集上,所有结果使用 640×640 输入

MethodFLOPs (G)#Param. (M)APval50:95 (%)Latency (ms)
YOLOv10-N6.72.338.51.84
YOLO11-N6.52.639.41.50
YOLOv12-N (Ours)6.52.640.61.64
YOLOv10-S21.67.246.32.49
YOLO11-S21.59.446.92.50
YOLOv12-S (Ours)21.49.348.02.61
YOLOv10-M59.115.451.14.74
YOLO11-M68.020.151.54.70
YOLOv12-M (Ours)67.520.252.54.86
YOLO11-L86.925.353.36.20
YOLOv12-L (Ours)88.926.453.76.77
YOLO11-X194.956.954.611.30
YOLOv12-X (Ours)199.059.155.211.79
结论:YOLOv12 在所有尺度上均取得最佳准确率,同时保持与 YOLOv10/YOLO11 相当的速度

实验:消融研究

R-ELAN 消融 (Table 2)

ModelRe-Aggre.Resi.ScalingAP (%)
YOLOv12-N40.8
YOLOv12-N40.6
YOLOv12-N0.0140.6
YOLOv12-L0.153.3
YOLOv12-L0.0153.7

残差连接对大规模模型收敛至关重要,缩放因子 0.01 效果最佳

区域注意力速度提升 (Table 3)

ModelCUDA FP32CUDA FP16CPU
YOLOv12-N ✗2.7/2.51.5/1.562.9
YOLOv12-N ✓2.0/2.01.3/1.331.4
YOLOv12-S ✗5.1/4.42.5/2.2130.0
YOLOv12-S ✓3.5/3.11.7/1.778.4

区域注意力在 GPU 和 CPU 上均带来显著加速

实验:诊断研究 (Diagnostic Studies)

基于 YOLOv12-N 模型,训练 600 epochs,逐一验证各设计选择的有效性

注意力实现方式 (Table 5a)

Conv+BN: 40.6% mAP, 1.64ms ✓
Linear+LN: 40.5% mAP, 1.68ms
Linear+BN: 39.5% mAP, 1.70ms

卷积+批归一化速度最快且精度最高

层次化设计 (Table 5b)

完整层次结构 (Ours): 40.6% ✓
Plain ViT (N/A): 38.3%
去掉第一阶段 (S₁): 40.1%
去掉第四阶段 (S₄): 39.8%

层次化设计对 YOLO 系统仍然最有效

位置感知器核大小 (Table 5d)

3×3: 40.4%, 1.60ms
5×5: 40.4%, 1.61ms
7×7: 40.6%, 1.64ms
9×9: 40.7%, 1.79ms

7×7 是精度与速度的最佳平衡点

位置编码 (Table 5e)

RPE: 40.3%, 1.76ms
APE: 40.5%, 1.69ms
无位置编码: 40.6%, 1.64ms

去除位置编码带来更简洁的架构和更快的推理

MLP 比例 (Table 5g)

1.2: 53.8%, 6.77ms
2.0: 53.6%, 6.75ms
4.0: 53.1%, 6.68ms

YOLOv12 中 MLP 比例 1.2 最佳,与传统 ViT 不同

FlashAttention (Table 5h)

不使用: 1.92ms (N), 3.02ms (S)
使用: 1.64ms (N), 2.61ms (S)

FlashAttention 加速 N/S 模型约 0.3-0.4ms,零额外成本

实验:可视化分析

热力图对比 (Figure 5)

从 X 尺度模型骨干第三层提取的热力图显示:

  • YOLOv12 产生更清晰的对象轮廓
  • 前景激活更精确
  • 对整体上下文的捕捉能力更强
原因分析:区域注意力机制具有比卷积网络更大的感受野,更擅长捕获整体上下文,从而带来更精确的前景激活

Accuracy-Parameters 权衡 (Figure 4)

YOLOv12 在精度-参数量曲线上占据主导边界

超越 YOLOv10,以显著更少的参数实现更高精度

CPU 推理速度 (Figure 4)

在 Intel Core i7-10700K 上,YOLOv12 超越所有竞争者

展示了跨多样化硬件平台的效率优势

总结与讨论

核心结论

YOLOv12 成功采用以注意力机制为核心的设计,在保持与先前 CNN 模型相当速度的同时,实现了注意力机制的性能优势

关键创新

  • 区域注意力 (A²):简单高效降低复杂度
  • R-ELAN:解决注意力带来的优化挑战
  • 架构优化:FlashAttention、MLP 调整等

性能优势

在所有主流实时检测器中取得最佳准确率,同时保持竞争力速度,多尺度模型覆盖全场景需求

局限性与未来

需要 FlashAttention 支持的 GPU(Turing/Ampere/Ada Lovelace/Hopper)。未来可探索更高效的注意力变体和更轻量的架构设计

YOLOv12 证明了注意力机制可以在实时目标检测中与 CNN 一样快,同时提供更强的建模能力,为 YOLO 系列的发展开辟了新的方向。

谢谢!

YOLOv12: Attention-Centric Real-Time Object Detectors

Yunjie Tian · Qixiang Ye · David Doermann

github.com/sunsmarterjie/yolov12

arXiv: 2502.12524 2025