计算机视觉目标检测实时推理

YOLOv12

Attention-Centric Real-Time Object Detectors

以注意力机制为核心的实时目标检测框架

Yunjie Tian · University at Buffalo
Qixiang Ye · University of Chinese Academy of Sciences
David Doermann · University at Buffalo

arXiv 2025 Technical Report

github.com/sunsmarterjie/yolov12

摘要

长期以来，改进 YOLO 框架的网络架构始终是核心课题，但相关研究始终聚焦于基于 CNN 的优化，尽管注意力机制已被证实具有更强的建模能力。这主要源于注意力模型无法匹敌 CNN 模型的速度优势。

核心问题

注意力机制计算复杂度高、内存访问效率低，导致在相似计算预算下，CNN 架构速度优于注意力架构约 3 倍

本文方案

提出以注意力机制为核心的 YOLO 框架 —— YOLOv12，在保持与先前 CNN 模型相当速度的同时，充分发挥注意力机制的性能优势

YOLOv12-N 在 T4 GPU 上以 1.64 ms 的推理延迟实现 40.6% mAP，较先进的 YOLOv10-N / YOLOv11-N 分别提升 2.1% / 1.2% mAP

引言：研究背景与动机

YOLO 系列的发展

YOLO 系列始终是实时目标检测领域的主流框架
从 YOLOv1 到 YOLOv11，架构改进主要基于 CNN
近期工作引入注意力机制，但仍以 CNN 为主干

注意力机制的优势

ViT 中展现了强大的全局建模能力
在小模型中也证明了优越性
但计算复杂度和内存访问效率是瓶颈

核心挑战

注意力机制在 YOLO 系统中应用受限的两大原因：

          1. 二次计算复杂度

          Self-attention 的计算量随输入长度平方增长

          2. 内存访问效率低

          注意力矩阵的读写速度成为瓶颈（FlashAttention 主要解决的问题）

本文主要贡献

1

区域注意力模块 (A²)

通过简单分区方式保持大感受野，降低注意力计算复杂度

2

残差高效层聚合网络 (R-ELAN)

引入残差设计和重新设计的特征聚合方法，解决优化挑战

3

架构优化

FlashAttention、调整 MLP 比例、大核可分离卷积等改进

性能突破

YOLOv12 在准确率上超越所有主流实时目标检测器，同时保持竞争力速度

效率优势

YOLOv12-S 击败 RT-DETR-R18，速度快 42%，仅需 36% 计算量和 45% 参数量

多尺度覆盖

提供 N/S/M/L/X 五种模型规模，覆盖从边缘设备到高性能服务器的全场景

方法：区域注意力模块 (Area Attention)

核心思想

将特征图沿垂直或水平方向等分为 l 个区域（默认 l=4），避免复杂操作的同时确保大感受野

        复杂度降低

        从 O(n²hd) 降低到 O(½n²hd)

        在 n=640 时仍满足实时要求

与其他局部注意力对比

Shift Window: 引入额外开销
Criss-cross: 减小感受野
Axial Attention: 复杂操作多
Area Attention (Ours): 最简单直接的等分方式

图2：区域注意力与其他局部注意力机制对比

特征图分区方式：

将 (H, W) 特征图分为 l 个区域，每个区域大小为 (H/l, W) 或 (H, W/l)

方法：残差高效层聚合网络 (R-ELAN)

ELAN 旨在改进特征聚合，但存在梯度阻塞和缺乏残差连接的问题。围绕注意力机制构建网络还带来额外的优化挑战。

R-ELAN 两大改进

1. 块级残差设计

引入从输入到输出的残差连接，带缩放因子（默认 0.01），类似层缩放技术

2. 重新设计的特征聚合

先通过过渡层调整通道维度产生单特征图，再经后续块和拼接形成瓶颈结构

架构对比

CSPNet
过渡层 → 拆分 → 块处理 → 拼接

ELAN
过渡层 → 拆分 → 多分支卷积 → 拼接

C3K2
过渡层 → 拆分 → 块×n → 拼接 → 过渡

R-ELAN (Ours)
过渡层 → 单特征图 → 块处理 → 残差连接(+scaling)

        关键优势：解决了 L 和 X 尺度模型的收敛问题，即使使用 Adam/AdamW 也能稳定训练
      

方法：架构优化细节

FlashAttention

引入 FlashAttention 克服注意力机制的内存访问问题，减少 HBM 读写，提升计算效率

MLP 比例调整

将传统注意力中的 MLP 比例从 4 调整为 1.2（N/S/M 模型用 2），更好分配计算资源

Conv2d + BN

采用 nn.Conv2d+BN 替代 nn.Linear+LN，充分利用卷积算子的计算效率

位置感知器

引入 7×7 大核可分离卷积（Position Perceiver）帮助区域注意力感知位置信息

去除位置编码

移除传统位置编码设计，简化架构，实验表明无位置编码配置性能最佳

层次化设计

保留 YOLO 的层次化设计，移除最后阶段的三块堆叠，仅保留单个 R-ELAN 块

实验：与主流方法对比

在 MS COCO 2017 数据集上，所有结果使用 640×640 输入

Method	FLOPs (G)	#Param. (M)	AP^val_50:95 (%)	Latency (ms)
YOLOv10-N	6.7	2.3	38.5	1.84
YOLO11-N	6.5	2.6	39.4	1.50
YOLOv12-N (Ours)	6.5	2.6	40.6	1.64
YOLOv10-S	21.6	7.2	46.3	2.49
YOLO11-S	21.5	9.4	46.9	2.50
YOLOv12-S (Ours)	21.4	9.3	48.0	2.61
YOLOv10-M	59.1	15.4	51.1	4.74
YOLO11-M	68.0	20.1	51.5	4.70
YOLOv12-M (Ours)	67.5	20.2	52.5	4.86
YOLO11-L	86.9	25.3	53.3	6.20
YOLOv12-L (Ours)	88.9	26.4	53.7	6.77
YOLO11-X	194.9	56.9	54.6	11.30
YOLOv12-X (Ours)	199.0	59.1	55.2	11.79

    结论：YOLOv12 在所有尺度上均取得最佳准确率，同时保持与 YOLOv10/YOLO11 相当的速度
  

实验：消融研究

R-ELAN 消融 (Table 2)

Model	Re-Aggre.	Resi.	Scaling	AP (%)
YOLOv12-N	✗	✗	–	40.8
YOLOv12-N	✓	✗	–	40.6
YOLOv12-N	✓	✓	0.01	40.6
YOLOv12-L	✓	✓	0.1	53.3
YOLOv12-L	✓	✓	0.01	53.7

残差连接对大规模模型收敛至关重要，缩放因子 0.01 效果最佳

区域注意力速度提升 (Table 3)

Model	CUDA FP32	CUDA FP16	CPU
YOLOv12-N ✗	2.7/2.5	1.5/1.5	62.9
YOLOv12-N ✓	2.0/2.0	1.3/1.3	31.4
YOLOv12-S ✗	5.1/4.4	2.5/2.2	130.0
YOLOv12-S ✓	3.5/3.1	1.7/1.7	78.4

区域注意力在 GPU 和 CPU 上均带来显著加速

实验：诊断研究 (Diagnostic Studies)

基于 YOLOv12-N 模型，训练 600 epochs，逐一验证各设计选择的有效性

注意力实现方式 (Table 5a)

Conv+BN: 40.6% mAP, 1.64ms ✓
Linear+LN: 40.5% mAP, 1.68ms
Linear+BN: 39.5% mAP, 1.70ms

卷积+批归一化速度最快且精度最高

层次化设计 (Table 5b)

完整层次结构 (Ours): 40.6% ✓
Plain ViT (N/A): 38.3%
去掉第一阶段 (S₁): 40.1%
去掉第四阶段 (S₄): 39.8%

层次化设计对 YOLO 系统仍然最有效

位置感知器核大小 (Table 5d)

3×3: 40.4%, 1.60ms
5×5: 40.4%, 1.61ms
7×7: 40.6%, 1.64ms ✓
9×9: 40.7%, 1.79ms

7×7 是精度与速度的最佳平衡点

位置编码 (Table 5e)

RPE: 40.3%, 1.76ms
APE: 40.5%, 1.69ms
无位置编码: 40.6%, 1.64ms ✓

去除位置编码带来更简洁的架构和更快的推理

MLP 比例 (Table 5g)

1.2: 53.8%, 6.77ms ✓
2.0: 53.6%, 6.75ms
4.0: 53.1%, 6.68ms

YOLOv12 中 MLP 比例 1.2 最佳，与传统 ViT 不同

FlashAttention (Table 5h)

不使用: 1.92ms (N), 3.02ms (S)
使用: 1.64ms (N), 2.61ms (S) ✓

FlashAttention 加速 N/S 模型约 0.3-0.4ms，零额外成本

实验：可视化分析

热力图对比 (Figure 5)

从 X 尺度模型骨干第三层提取的热力图显示：

YOLOv12 产生更清晰的对象轮廓
前景激活更精确
对整体上下文的捕捉能力更强

        原因分析：区域注意力机制具有比卷积网络更大的感受野，更擅长捕获整体上下文，从而带来更精确的前景激活
      

Accuracy-Parameters 权衡 (Figure 4)

YOLOv12 在精度-参数量曲线上占据主导边界

超越 YOLOv10，以显著更少的参数实现更高精度

CPU 推理速度 (Figure 4)

在 Intel Core i7-10700K 上，YOLOv12 超越所有竞争者

展示了跨多样化硬件平台的效率优势

总结与讨论

核心结论

YOLOv12 成功采用以注意力机制为核心的设计，在保持与先前 CNN 模型相当速度的同时，实现了注意力机制的性能优势

关键创新

区域注意力 (A²)：简单高效降低复杂度
R-ELAN：解决注意力带来的优化挑战
架构优化：FlashAttention、MLP 调整等

性能优势

在所有主流实时检测器中取得最佳准确率，同时保持竞争力速度，多尺度模型覆盖全场景需求

局限性与未来

需要 FlashAttention 支持的 GPU（Turing/Ampere/Ada Lovelace/Hopper）。未来可探索更高效的注意力变体和更轻量的架构设计

YOLOv12 证明了注意力机制可以在实时目标检测中与 CNN 一样快，同时提供更强的建模能力，为 YOLO 系列的发展开辟了新的方向。

谢谢!

YOLOv12: Attention-Centric Real-Time Object Detectors

Yunjie Tian · Qixiang Ye · David Doermann

github.com/sunsmarterjie/yolov12

arXiv: 2502.12524 2025