跳到主要内容

让推理变快:推理引擎与量化

理解主流推理引擎的原理和优化手段,掌握量化技术,让模型跑得更快、更省资源。

为什么这个模块对 FDE 至关重要

这是 FDE 的核心技能区。很多候选人能解释 Transformer 的公式,但回答不了:

  • "vLLM 的 PagedAttention 比传统 KV Cache 好在哪里?为什么能提升 4 倍吞吐?"
  • "AWQ 和 GPTQ 的 INT4 量化,哪个更适合生产环境?为什么?"
  • "H100 上 FP8 推理比 FP16 快多少?精度损失有多大?"
  • "投机解码的加速倍数如何计算?什么场景下最有效?"

推理优化本质上是在和三个瓶颈博弈:显存(KV Cache)、算力(Tensor Core 利用率)、通信(多卡 AllReduce)。

推理引擎架构全景

量化技术全景

70B 模型在不同精度下的显存需求

精度权重显存KV Cache (batch=16, seq=8192)总显存所需 GPU
FP16140 GB~50 GB~190 GB3× A100-80G
INT8 (SmoothQuant)70 GB~25 GB~95 GB2× A100-80G
INT4 (AWQ)35 GB~12 GB~47 GB1× A100-80G
FP8 (H100)70 GB~12 GB~82 GB1× H100-80G
INT4 + INT8 KV35 GB~32 GB (INT8)~67 GB1× A100-80G

关键洞察:量化不只是省显存,更是让 70B 模型从"需要多卡"变成"单卡可跑",从根本上消除了 TP 的通信开销。

Prefill vs Decode 的优化对应关系

硬件与量化方案匹配

GPU推荐方案原因
A100 (无 FP8 Tensor Core)INT8 SmoothQuant / INT4 AWQ不支持 FP8 原生加速
H100 (FP8 Tensor Core)FP8 权重 + FP8 KV Cache原生 FP8 GEMM,3958 TFLOPS
H200 / B200FP8 + FP4 探索更大 HBM + 新精度支持
消费级 (RTX 4090)INT4 GGUF / AWQ显存有限,INT4 是唯一选择

学习路径

顺序文档核心内容面试考点
1推理引擎概述推理指标、引擎对比、选型指南如何选择推理引擎
2vLLM 深度解读PagedAttention、Continuous BatchingvLLM 的核心创新是什么
3TensorRT-LLM 解读NVIDIA 原生优化、推理加速TRT-LLM vs vLLM
4SGLang 解读RadixAttention、结构化生成什么时候用 SGLang
5量化基础PTQ、QAT、量化格式量化对精度的影响
6量化方案详解SmoothQuant、AWQ、GPTQAWQ 的原理和优势
7KV Cache 量化量化 KV Cache 降低显存KV Cache 量化的精度损失
8投机解码小模型辅助大模型生成投机解码的加速原理
9FP8 推理FP8 格式和混合精度推理FP8 vs FP16 的精度差异
10前沿技术EAGLE-3、FP4、推理模型优化2026 推理前沿趋势

模块知识结构图

前置知识

建议先完成 GPU 基础 了解 GPU 的计算特性。


上一节:GPU:理解推理的物理载体 下一节:推理引擎概述