Transformer 是一种基于自注意力机制(Self-Attention)的深度学习架构,由 Google 团队在 2017 年论文《Attention Is All You Need》中提出。它彻底改变了自然语言处理(NLP)领域,并逐步扩展到计算机视觉、语音识别等多个方向。
核心结构:
1.自注意力机制(Self-Attention)
计算输入序列中每个元素与其他元素的关联权重,动态聚焦重要部分。
2.多头注意力(Multi-Head Attention)
并行运行多组自注意力机制,捕捉不同子空间的依赖关系。
优势:增强模型对不同类型关系的建模能力。
3.位置编码(Positional Encoding)
问题:Transformer 本身无时序信息,需显式注入位置信息。
方法:通过正弦/余弦函数或可学习参数生成位置编码,与输入嵌入相加。
4.前馈神经网络(Feed-Forward Network)
每个注意力层后接一个全连接网络(通常含 ReLU 激活),增强非线性表达能力。
Transformer 的演进方向
高效化:稀疏注意力(如 Longformer)、蒸馏(DistilBERT)。
多模态融合:统一处理文本、图像、音频(如 Flamingo、BEiT-3)。
可解释性:可视化注意力权重(如 exBERT)。