自注意力机制再理解：从绝对位置到RoPE，Transformer何以统治深度学习？

8次阅读

共计 2709 个字符，预计需要花费 7 分钟才能阅读完成。

如果你在过去两年里深度参与过NLP或视觉领域的工作，你一定无数次和Transformer打交道。从BERT到LLaMA，从ViT到DiT，这个架构几乎成了深度学习的“通用语”。但说实话，很多人在调参和部署时，对自注意力机制的理解还停留在“QKV矩阵乘法”的层面——知道它做了什么，却很少思考它为什么能这么灵活，以及位置编码到底在扮演什么角色。

2025年快过去了，回看这一年，注意力机制的进化远不止于FlashAttention的加速，更在于其几何本质被不断重新挖掘。今天我想和你聊聊自注意力的几个核心概念，尤其是从绝对位置编码到RoPE（旋转位置编码）的演进，以及这个思路如何被扩散模型继承，形成DiT这样的混合架构。希望给正在研究Transformer的你一点启发。

自注意力的核心公式是：Attention(Q,K,V) = softmax(QK^T / √d) V。绝大多数人第一次学它，会把它理解成一种“加权平均”——根据查询(Q)和键(K)的相似度，从值(V)中提取信息。

但让我们从几何角度重新审视。QK^T 的内积，实际上是在高维空间中计算两个向量夹角的余弦值（忽略模长）。当你对序列中每个位置计算与其他位置的内积时，你得到了一个相似度矩阵，它刻画了所有位置之间的“相对方向关系”。这个矩阵的学名是 Gram 矩阵，它蕴含了序列的空间结构。

为什么一定要缩放 √d？因为如果d很大，内积的方差会随着维度增加而爆炸，softmax会变得“尖峰”——某个位置的注意力几乎全部集中到少数字上，导致梯度消失。这不是数学技巧，而是为了维持相似度分布的熵，让梯度能顺畅流动。2025年的最新研究甚至发现，缩放因子不一定非要是√d，可以学习（如Learned Temperature），但经典设计自有其优雅之处。

Transformer没有循环结构，必须注入位置信息才能理解序列顺序。最早的Vaswani等人用了绝对位置正弦编码：PE(pos,2i) = sin(pos/10000^(2i/d))。这个设计让不同频率的正弦波叠加，使得模型能够通过线性变换推断相对位置。

但它有一个致命缺陷：绝对位置编码不具备平移不变性。比如句子“I love deep learning”和“Deep learning is fun”，单词“deep”在第一个位置和第二个位置的编码完全不同，模型需要重新学习这种差异。更糟糕的是，在推理时遇到比训练更长的序列，插值会导致边界效应。

于是相对位置编码（如Shaw et al. 2018）应运而生，但实现复杂，且无法融入矩阵乘法加速。2022年，一个优雅的解决方案——RoPE（旋转位置编码）彻底改变了局面。它把位置信息“旋转”到Q和K向量中，使得内积的结果包含了相对位置信息。公式简单到令人惊叹：在每个二维平面上对向量进行旋转。

具体来说，对于维度d，分成d/2个二维子空间，每个子空间上按不同频率旋转位置θ_i。那么Q和K的第i个二维子空间上的内积，就变成了相对位置 (m-n) 的函数。这不仅保留了相对位置的直觉，还具有序列长度外推能力——因为旋转频率是连续的，模型在推理时即使遇到更长的序列，旋转操作也自然成立。

2025年的LLaMA-3、Qwen2.5等主流开源模型全部采用RoPE，它几乎成了绝对位置编码的“终结者”。

说到扩散模型，很多人会想到UNet。但2024-2026年，Transformer越来越多地闯入视觉生成领域。DiT（Diffusion Transformer） 首次将自注意力直接用于潜在空间的扩散去噪过程，替代了传统的卷积UNet。

它的核心思想是：把图像划分为若干个patch，每个patch输入到Transformer中，通过自注意力建模全局依赖。在去噪过程中，每一步噪声预测不再是局部卷积，而是全局注意力下的像素关系重建。

这里有一个有趣的技术细节：DiT使用自适应层归一化（AdaLN）来注入时间步和类别条件。标准Transformer的LayerNorm对输入做归一化，但AdaLN将时间步t的嵌入作为缩放因子γ和偏置β，直接调节每个神经元输出的均值和方差。这意味着自注意力机制可以“感知”当前处于去噪的哪个阶段——早期需要关注高频细节，后期关注整体结构。

2025年，Stability AI的Stable Diffusion 3.5 和Midjourney V7 都融合了Transformer模块。但一个现实问题是：自注意力的二次复杂度在图像高分辨率下难以承受。于是出现了多种改进：窗口注意力（如SwinTransformer）、线性注意力（如Performer），以及DiT论文中使用的patchify大尺度——直接将整张图分成16×16的patch，而不是像素级注意力。这其实是一种“用空间换时间”的经典权衡。

站在2026年的门槛前，我认为自注意力机制已经进入“深度微调”阶段——基本框架不变，但每个子模块都被重新设计：

位置编码的下一步：RoPE虽然优秀，但它只考虑欧氏距离下的相对位置。一些工作（如ALiBi）尝试直接在线性位置上衰减注意力，甚至放弃显式编码，让模型自己学习位置偏差。未来可能根据不同模态（文本、图像、音频）自动选择最优编码方式。
注意力稀疏化：Mamba（序列模型）的流行让大家意识到，未必所有位置都需要两两交互。使用滑动窗口+全局token的方式（如Mistral、LongLLaMA）已经在长文本上取得优异效果。针对扩散模型，也可以采用“局部窗口+全局稀疏采样”的方案，在保证生成质量的同时降低计算量。
量子化与蒸馏：注意力机制中的QK^T矩阵是计算瓶颈。2025年有论文提出用低秩近似替代full attention，甚至用二值化对齐，将浮点内积变为布尔运算，在保持性能的前提下大幅提速。

最后说一点个人体会：自注意力机制之所以统治深度学习，是因为它提供了一种“上下文建模”的通用语言。无论是语言序列、图像patch、时间序列还是图数据，只要你能把输入映射成一连串token，就可以用自注意力捕捉任意两点之间的关系。这种统一性，让它成为连接不同领域的桥梁。而我们要做的，只是不断优化这座桥的材质和结构罢了。

希望这篇文章能让你对自注意力有一个新的认知角度。如果你在落地过程中遇到具体问题——比如RoPE的超参数选择，或者DiT的训练稳定性——欢迎留言讨论，我们下期再见。

正文完

发表至：深度学习

2026-05-14

0