跳到主要内容

推荐资源

论文、博客、代码仓库、工具，按主题分类

核心论文

论文	年份	主题
Attention Is All You Need	2017	Transformer 原始论文
Grouped Query Attention	2023	GQA 方案
FlashAttention	2022	高效 Attention 算法
FlashAttention-3	2024	异步 + FP8 Attention
Orca (Continuous Batching)	2023	持续批处理
AWQ	2023	激活感知量化
GPTQ	2022	逐层量化
SmoothQuant	2022	平滑量化方案
Speculative Decoding	2023	投机解码
EAGLE-3	2025	特征级推测解码 2-6x
SpecForge	2026	灵活推测解码训练框架
FLy Loosely Speculative	2025	宽松推测解码
PagedAttention	2023	vLLM 核心技术
DistServe	2024	Prefill-Decode 分离

必读博客

来源	内容
vLLM Blog	PagedAttention、Continuous Batching 原理
SGLang Blog	RadixAttention、Agentic 推理优化
Lilian Weng - LLM 推理	LLM 推理全景图
Kipp Lee - Transformer Inference Arithmetic	推理显存和计算量化分析
NVIDIA Blog	GPU 优化技术、Rubin 架构
Sebastian Raschka Blog	LLM 技术详解、年度回顾

代码仓库

仓库	说明
vLLM	最活跃的推理引擎
TensorRT-LLM	NVIDIA 官方优化框架
SGLang	结构化生成引擎
llm-action	中文大模型技术原理汇总
llm-course	LLM 课程合集

学习平台

平台	内容
BentoML LLM Handbook	免费在线推理手册
Machine Learning Mastery	ML 基础教程
智源社区	中文 AI 学习社区
Datawhale	中文开源学习社区

上一节：团队管理

核心论文
必读博客
代码仓库
学习平台