01. 什么是 Transformer?它的整体结构是什么?

整理 Transformer 的基本定义、模块组成与输入输出流程。

简单回答

Transformer 是一种以注意力机制为核心的序列建模架构。对大模型而言,可以把它理解成“输入先编码成向量,再通过多层注意力与前馈网络反复加工,最后逐 token 预测下一个词”。

详细解析

  • 从结构上看,经典 Transformer 包含输入嵌入、位置编码、多头注意力、前馈网络、残差连接和归一化模块。
  • 在 GPT 这一类大模型里,主流实现通常采用 Decoder-Only,只保留自注意力堆叠,用于根据已有上下文预测下一个 token。
  • 每一层的核心是“信息混合 + 非线性变换”:注意力负责让 token 之间交互,FFN 负责在每个位置上做特征变换。
  • 层与层叠加之后,模型会逐步形成语义、语法、事实和推理相关的表示。

面试时可以这样答

面试时可以先给一句定义,再按“输入层 → 注意力层 → FFN → 输出预测”四步讲清整体流程,不要一上来就陷进公式。

常见追问

  • Encoder-Only、Decoder-Only、Encoder-Decoder 有什么区别?
  • 为什么 Transformer 能替代 RNN?