Attention 前置:从序列瓶颈到内积、Softmax,再到 GPU 内存墙
Attention 的公式很短,但公式里的每个部件都对应一个明确问题:序列模型的串行依赖、向量相似度的可微计算、Softmax 的概率归一化,以及 GPU 上计算与数据搬运的权衡。本文从 RNN 的递推瓶颈出发,介绍 Embedding、矩阵投影、内积打分、Softmax、LayerNorm、Residual Connection 和内存墙,为下一篇推导 Scaled Dot-Product Attention 做准备。