Attention Is All You Need

论文：Vaswani et al., 2017

概述

Transformer 是第一个完全基于注意力机制的序列转导模型，摒弃了传统的 RNN 和 CNN 结构。

自注意力机制通过三个权重矩阵将输入转换为 Q、K、V：

$$ \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V $$

多个注意力头并行工作，捕捉不同子空间的信息：

$$ \text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, \ldots, \text{head}_h)W^O $$