03. DeepSpeed 和 FSDP 各有什么特点？实际怎么选？

整理 DeepSpeed 与 FSDP 的特点、差异和实际选型思路。

简单回答

DeepSpeed 是 Microsoft 开发的大规模训练优化库，功能全面，ZeRO 系列、混合精度、梯度裁剪、Offload 等都集成在一起，工程成熟度高，社区案例多。FSDP（Fully Sharded Data Parallel）是 PyTorch 原生的分片方案，概念上对应 ZeRO-3，和 PyTorch 生态集成更紧密，配置更简洁，但功能不如 DeepSpeed 丰富。两者都能达到大规模训练的需求，选哪个更多是工程偏好和已有基础设施的问题。

详细解答

DeepSpeed 的核心特点

DeepSpeed 是一个比较"重"的训练框架，功能覆盖范围很广，不只是显存优化。

ZeRO 是其最核心的能力，ZeRO-1/2/3 + ZeRO++ + ZeRO-Infinity 全都有。除此之外还集成了：混合精度训练（自动处理 FP16/BF16 和 FP32 Master Weight）、梯度累积、梯度裁剪、学习率调度、Tensor Parallelism（和 Megatron 集成）、Pipeline Parallelism、推理优化（DeepSpeed-Inference）等。

工程上，使用 DeepSpeed 需要通过 JSON 配置文件来声明各种参数：

{
  "zero_optimization": {
    "stage": 3,
    "offload_optimizer": {"device": "cpu"},
    "overlap_comm": true
  },
  "fp16": {"enabled": true},
  "gradient_clipping": 1.0
}

DeepSpeed 的配置相对繁琐，但灵活性高，调优空间大。社区里有大量开源训练代码（LLaMA、Mistral、Qwen 的开源训练脚本大多支持 DeepSpeed），踩坑文档丰富。

局限是它和 PyTorch 的耦合方式有点"侵入性"，需要用 deepspeed.initialize() 包装模型和优化器，有些 PyTorch 原生特性（比如某些 hook 机制）在 DeepSpeed 包裹后会有兼容性问题。调试相对麻烦。

FSDP 的核心特点

FSDP 是 PyTorch 1.12 之后引入的原生分布式训练方案，概念上非常接近 ZeRO-3——把模型参数、梯度、优化器状态全部做分片，只在需要时 AllGather 完整参数。

和 DeepSpeed 的最大区别是集成方式：FSDP 是 PyTorch 原生的 API，用起来和 DDP 的体验很接近，只需要用 FSDP() 包装模型，不需要额外的配置文件，和 PyTorch 的其他特性（torch.compile、gradient checkpointing、activation offloading 等）配合更自然。

FSDP 的另一个优势是 ShardingStrategy 的可配置性——可以按层粒度控制分片策略，不同层用不同的分片方式，比如底层用 FULL_SHARD，顶层用 NO_SHARD（不分片），在通信效率和显存之间做更细粒度的权衡。

from torch.distributed.fsdp import FullyShardedDataParallel as FSDP
from torch.distributed.fsdp import ShardingStrategy

model = FSDP(
    model,
    sharding_strategy=ShardingStrategy.FULL_SHARD,
    mixed_precision=MixedPrecision(param_dtype=torch.bfloat16),
    use_orig_params=True,
)

局限是功能不如 DeepSpeed 全面——ZeRO-Infinity（offload 到 CPU/NVMe）的支持没有 DeepSpeed 成熟，Pipeline Parallelism 需要额外搭配 Tensor Parallel 库，整体生态还在完善中。

实际怎么选

工程实践上有几个判断维度：

团队技术栈：如果团队深度使用 PyTorch，且重视代码简洁性和调试便利，FSDP 的学习曲线更平缓，和 PyTorch 原生工具链的配合更顺滑。如果已经有大量 DeepSpeed 的经验和基础设施，迁移成本不值得。

功能需求：需要 ZeRO-Infinity（Offload 到 NVMe）、Pipeline Parallelism 和 ZeRO++ 这类高级功能，DeepSpeed 更成熟。纯粹需要显存分片功能（等价于 ZeRO-3），FSDP 足够。

模型规模和 GPU 数量：对于 7B~70B 规模的模型、几十到几百张 GPU，两者都能胜任。对于千亿参数以上的超大模型，DeepSpeed + Megatron 的组合有更多实战经验。

训练框架的选择：如果用 HuggingFace Transformers + Trainer，两者都支持；如果用 Axolotl、LLaMA-Factory 这类训练框架，通常对 DeepSpeed 的支持更完整。如果是 Meta 系列（Torchrun + 纯 PyTorch），FSDP 是自然选择。

Meta 内部大量使用 FSDP（LLaMA 2/3 的训练就用的 FSDP），而微软、领英、很多国内大厂训练团队用 DeepSpeed 更多。两者都在积极迭代，差距在缩小。

面试时可以这样答

两者解决的核心问题是一样的，都是大模型分布式训练的显存和效率优化，只是出发点和定位不同。
DeepSpeed 是 Microsoft 出的一套完整的训练优化库，功能最全面——ZeRO 全系列、CPU/NVMe Offload、流水线并行、推理优化都有。工程成熟度高，社区案例多，但配置相对繁琐，和 PyTorch 的集成方式有点侵入性，调试麻烦一些。
FSDP 是 PyTorch 原生的分片方案，对应 ZeRO-3 的功能，但集成更自然，API 和 DDP 体验接近，和 torch.compile、gradient checkpointing 等配合更顺滑。功能没 DeepSpeed 全，但对大多数场景够用。
选哪个看团队情况。团队深度用 PyTorch、重视代码简洁性，用 FSDP；已经有 DeepSpeed 基础设施、需要 ZeRO-Infinity 或流水线并行这类高级功能，用 DeepSpeed。两者都经过了大模型实战验证，Meta 用 FSDP 训了 LLaMA 系列，DeepSpeed 在国内训练团队用得很广。

常见追问

FSDP 的 use_orig_params=True 这个参数有什么用？不设会怎样？
DeepSpeed ZeRO-3 和 FSDP 在实际通信效率上有多大差异？
同时用 FSDP + torch.compile 有哪些坑？

02. ZeRO-1/2/3 分别优化了什么？和普通 DDP 有什么区别？

04. Megatron-LM 的张量并行是怎么切的？它的通信模式是什么？