• Transformer
  • 日期 : 2025-06-12     点击量 : 39

      Transformer 是一种基于自注意力机制(Self-Attention)的深度学习架构,由 Google 团队在 2017 年论文《Attention Is All You Need》中提出。它彻底改变了自然语言处理(NLP)领域,并逐步扩展到计算机视觉、语音识别等多个方向。


    核心结构:
    1.自注意力机制(Self-Attention)
    计算输入序列中每个元素与其他元素的关联权重,动态聚焦重要部分。
    2.多头注意力(Multi-Head Attention)
    并行运行多组自注意力机制,捕捉不同子空间的依赖关系。
    优势:增强模型对不同类型关系的建模能力。
    3.位置编码(Positional Encoding)
    问题:Transformer 本身无时序信息,需显式注入位置信息。
    方法:通过正弦/余弦函数或可学习参数生成位置编码,与输入嵌入相加。
    4.前馈神经网络(Feed-Forward Network)
    每个注意力层后接一个全连接网络(通常含 ReLU 激活),增强非线性表达能力。
     
    Transformer 的演进方向
    高效化:稀疏注意力(如 Longformer)、蒸馏(DistilBERT)。
    多模态融合:统一处理文本、图像、音频(如 Flamingo、BEiT-3)。
    可解释性:可视化注意力权重(如 exBERT)。