06. 张量并行、流水线并行和数据并行有什么区别?
整理几种常见并行策略的基本思路。
简单回答
三者的拆分维度不同:数据并行拆样本,张量并行拆层内计算,流水线并行拆网络层段。
详细解析
- 数据并行最容易理解,不同卡处理不同 batch,再做梯度同步,训练里很常见。
- 张量并行把同一层的矩阵计算拆到多张卡上,适合单层太大装不下的情况。
- 流水线并行把不同层分配给不同设备,像装配线一样逐段传递。
- 真正的大模型训练和部署通常是多种并行混用,而不是单独选一种。
面试时可以这样答
回答时别只背定义,最好补一句每种方案主要解决什么资源瓶颈。
常见追问
- 推理阶段也会用并行吗?
- 为什么张量并行会增加通信开销?