06. 张量并行、流水线并行和数据并行有什么区别?

整理几种常见并行策略的基本思路。

简单回答

三者的拆分维度不同:数据并行拆样本,张量并行拆层内计算,流水线并行拆网络层段。

详细解析

  • 数据并行最容易理解,不同卡处理不同 batch,再做梯度同步,训练里很常见。
  • 张量并行把同一层的矩阵计算拆到多张卡上,适合单层太大装不下的情况。
  • 流水线并行把不同层分配给不同设备,像装配线一样逐段传递。
  • 真正的大模型训练和部署通常是多种并行混用,而不是单独选一种。

面试时可以这样答

回答时别只背定义,最好补一句每种方案主要解决什么资源瓶颈。

常见追问

  • 推理阶段也会用并行吗?
  • 为什么张量并行会增加通信开销?