GPU：理解推理的物理载体

所有的推理优化最终都要落到 GPU 的物理特性上。不理解 GPU 的架构和显存模型，就无法理解"为什么 decode 是 memory-bound"、"为什么量化能加速"这些核心问题。

为什么这个模块对 FDE 至关重要

很多 FDE 候选人能说出 Transformer 的公式，但回答不了：

GPU 是推理的物理载体。一切优化手段——量化、PagedAttention、Continuous Batching、张量并行——本质上都是在和 GPU 的物理特性博弈。

关键数字（A100 80GB）：

硬件组件	规格	对推理的影响
CUDA Cores	6,912 (64 × 108 SM)	通用计算，LLM 推理中使用较少
Tensor Cores	432 (4 × 108 SM)	LLM 推理的核心算力，支持 FP16/BF16/INT8/FP8
HBM 带宽	2.0 TB/s	decode 阶段的瓶颈，决定每秒能生成多少 token
L2 缓存	40 MB	减少 HBM 访问，提升小 batch 推理效率
寄存器文件	每个 SM 64K 个	决定 SM 能同时处理的线程数

顺序	文档	核心内容	面试考点
1	GPU 架构概述	SM、Tensor Core、CUDA Core、prefill/decode 在 GPU 上的执行特征	为什么 GPU 适合深度学习？prefill 和 decode 在 GPU 上的差异
2	显存模型	HBM、SRAM、L1/L2 Cache、带宽与容量对推理的影响	HBM 带宽如何限制 decode 速度
3	性能瓶颈分析	compute-bound vs memory-bound、SM 利用率分析、Arithmetic Intensity	如何判断推理是 compute-bound 还是 memory-bound
4	GPU 互联	NVLink、PCIe、InfiniBand 带宽对比、多卡通信拓扑	TP=4 时跨卡通信开销有多大

建议先完成模型是怎么工作的了解模型的计算特征（prefill 是 compute-bound，decode 是 memory-bound）。