AAAI 2026 | Vision Transformers are Circulant Attention Learners:当Self-Attention学会“偷懒“,效率与精度我全都要!

AAAI 2026 | Vision Transformers are Circulant Attention Learners:当Self-Attention学会“偷懒“,效率与精度我全都要!
论文: Vision Transformers are Circulant Attention Learners作者: Dongchen Han, Tianyu Li, Ziyi Wang, Gao Huang (清华大学 LeapLab)发表: AAAI 2026论文链接: https://arxiv.org/pdf/2512.21542代码链接: https://github.com/LeapLabTHU/Circulant-Attention一、引言Vision Transformer (ViT) 的成功离不开 Self-Attention 机制强大的全局建模能力。但正所谓"能力越大,代价越大"——Self-Attention 的O ( N 2 ) O(N^2)O(N2)二次复杂度在高分辨率场景下简直是算力黑洞。为了缓解这个问题,前人提出了各种"手工设计"的优化策略:局部注意力(Swin Transformer):将注意力限制在窗口内稀疏注意力(PVT):对 K/V 进行下采样动态路由(BiFormer):动态选择感兴趣的区域然而,这些方法本质上都是外部强加的手工约束,不可避免地会损害模型的表达能力。那么问题来了:有没有一种方法,既能降低 Self-Attention 的计算复杂度,又能最大程度保留其强大的表达能力?今天要介绍的这篇 AAAI 2026 论文给出了一个非常 elegant 的答案——Circulant Attention(循环注意力)。二、核心发现:Self-Attention 天生就会"偷懒"论文首先做了一个非常有趣的观察:训练好的 ViT 中的 Attention 矩阵,竟然高度近似于 BCCB 矩阵!BCCB(Block Circulant matrix with Circulant Blocks)是循环矩阵在二维的推广,它的核心特点是:完全由第一行决定,整个矩阵就是第一行不断循环移位的结果矩阵乘法可以用 2D FFT 在O ( N log ⁡ N ) O(N \log N)O(NlogN)时间内完成这意味着什么?意味着Self-Attention 虽然形式上花着O ( N 2 ) O(N^2)O(N2)的算力,但实际上它学到的模式完全可以用O ( N log ⁡ N ) O(N \log N)O(NlogN)高效计算。论文进一步可视化了相邻 query 的注意力分布,发现它们呈现出明显的平移不变性(shift invariance)——这正是 BCCB 矩阵对应的 2D 全局卷积的行为特征。三、方法:Circulant Attention基于上述发现,论文提出了Circulant Attention,核心思想很简单:将原始的 Attention 矩阵显式地投影到 BCCB 矩阵子空间上,然后用 FFT 高效计算。3.1 数学形式原始 Self-Attention:A = Q K ⊤ d , O = σ ( A ) V A = \frac{QK^\top}{\sqrt{d}}, \quad O = \sigma(A) VA=d​QK⊤​,O=σ(A)VCirculant Attention 将A AA替换为它在 BCCB 子空间上的正交投影A ~ \tilde{A}A~:A ~ = arg ⁡ min ⁡ B ∈ B ∥ A − B ∥ \tilde{A} = \arg\min_{B \in \mathcal{B}} \|A - B\|A~=argB∈Bmin​∥A−B∥其中B \mathcal{B}B是 BCCB 矩阵子空间。3.2 高效计算由于 BCCB 矩阵完全由第一行a aa决定,我们可以直接计算a aa: