让推理变快：推理引擎与量化

理解主流推理引擎的原理和优化手段，掌握量化技术，让模型跑得更快、更省资源。

为什么这个模块对 FDE 至关重要

这是 FDE 的核心技能区。很多候选人能解释 Transformer 的公式，但回答不了：

推理优化本质上是在和三个瓶颈博弈：显存（KV Cache）、算力（Tensor Core 利用率）、通信（多卡 AllReduce）。

精度	权重显存	KV Cache (batch=16, seq=8192)	总显存	所需 GPU
FP16	140 GB	~50 GB	~190 GB	3× A100-80G
INT8 (SmoothQuant)	70 GB	~25 GB	~95 GB	2× A100-80G
INT4 (AWQ)	35 GB	~12 GB	~47 GB	1× A100-80G
FP8 (H100)	70 GB	~12 GB	~82 GB	1× H100-80G
INT4 + INT8 KV	35 GB	~32 GB (INT8)	~67 GB	1× A100-80G

关键洞察：量化不只是省显存，更是让 70B 模型从"需要多卡"变成"单卡可跑"，从根本上消除了 TP 的通信开销。

顺序	文档	核心内容	面试考点
1	推理引擎概述	推理指标、引擎对比、选型指南	如何选择推理引擎
2	vLLM 深度解读	PagedAttention、Continuous Batching	vLLM 的核心创新是什么
3	TensorRT-LLM 解读	NVIDIA 原生优化、推理加速	TRT-LLM vs vLLM
4	SGLang 解读	RadixAttention、结构化生成	什么时候用 SGLang
5	量化基础	PTQ、QAT、量化格式	量化对精度的影响
6	量化方案详解	SmoothQuant、AWQ、GPTQ	AWQ 的原理和优势
7	KV Cache 量化	量化 KV Cache 降低显存	KV Cache 量化的精度损失
8	投机解码	小模型辅助大模型生成	投机解码的加速原理
9	FP8 推理	FP8 格式和混合精度推理	FP8 vs FP16 的精度差异
10	前沿技术	EAGLE-3、FP4、推理模型优化	2026 推理前沿趋势

建议先完成 GPU 基础了解 GPU 的计算特性。