大连职业技术学院 - 现代教育技术中心

Transformer 是一种基于自注意力机制（Self-Attention）的深度学习架构，由 Google 团队在 2017 年论文《Attention Is All You Need》中提出。它彻底改变了自然语言处理（NLP）领域，并逐步扩展到计算机视觉、语音识别等多个方向。

核心结构：

1.自注意力机制（Self-Attention）

计算输入序列中每个元素与其他元素的关联权重，动态聚焦重要部分。

2.多头注意力（Multi-Head Attention）

并行运行多组自注意力机制，捕捉不同子空间的依赖关系。

优势：增强模型对不同类型关系的建模能力。

3.位置编码（Positional Encoding）

问题：Transformer 本身无时序信息，需显式注入位置信息。

方法：通过正弦/余弦函数或可学习参数生成位置编码，与输入嵌入相加。

4.前馈神经网络（Feed-Forward Network）

每个注意力层后接一个全连接网络（通常含 ReLU 激活），增强非线性表达能力。

Transformer 的演进方向

高效化：稀疏注意力（如 Longformer）、蒸馏（DistilBERT）。

多模态融合：统一处理文本、图像、音频（如 Flamingo、BEiT-3）。

可解释性：可视化注意力权重（如 exBERT）。