大模型怎么部署到多块 GPU 上

当模型参数超过单卡显存容量时，需要将模型拆分到多块 GPU 上。本模块讲解分布式推理的核心概念和并行策略。

为什么这个模块对 FDE 至关重要

70B 模型的 FP16 权重是 140GB，远超单张 A100-80G 的容量。671B 的 DeepSeek-V3 更是需要 1.3TB。分布式推理是唯一解法，但不同的并行策略带来的性能代价完全不同：

分布式推理的核心矛盾：计算可以线性拆分，但通信开销不是线性的。选择错误的并行策略，可能让 8 张卡的性能还不如 4 张。

策略	通信原语	通信量 (Llama-3-70B)	带宽要求	延迟敏感度
DP	无	0	无	无
TP	AllReduce	每层 ~32 KB (TP=4)	极高 (必须 NVLink)	极高 (逐层同步)
PP	Send/Recv	~1 MB / micro-batch	中等 (PCIe 即可)	低 (层间异步)
EP	AllToAll	~16 MB / MoE 层	高 (跨卡)	中等
CP	AllGather/RS	seq_len × hidden / P	高	中等

关键数字：TP=4 时，每卡每次 AllReduce 发送 1.5 倍的数据量；TP=8 时发送 1.75 倍。

结论：TP 必须在 NVLink 域内执行。超过 NVLink 范围（通常是单机 8 卡），TP 的效率急剧下降。

单卡显存：

= (模型参数 / TP_size) × 2 bytes + KV_Cache × batch_size + 激活 + 通信缓冲

KV Cache：

= 2 × num_layers × num_heads × head_dim × seq_len × batch × 2 bytes

MoE 显存：

= (总参数 / EP_size) × 2 bytes + KV_Cache × batch_size + 路由缓冲 + AllToAll 缓冲

建议先完成 GPU 互联了解 GPU 间通信特性。