跳到主要内容

推荐资源

论文、博客、代码仓库、工具,按主题分类


核心论文

论文年份主题
Attention Is All You Need2017Transformer 原始论文
Grouped Query Attention2023GQA 方案
FlashAttention2022高效 Attention 算法
FlashAttention-32024异步 + FP8 Attention
Orca (Continuous Batching)2023持续批处理
AWQ2023激活感知量化
GPTQ2022逐层量化
SmoothQuant2022平滑量化方案
Speculative Decoding2023投机解码
EAGLE-32025特征级推测解码 2-6x
SpecForge2026灵活推测解码训练框架
FLy Loosely Speculative2025宽松推测解码
PagedAttention2023vLLM 核心技术
DistServe2024Prefill-Decode 分离

必读博客

来源内容
vLLM BlogPagedAttention、Continuous Batching 原理
SGLang BlogRadixAttention、Agentic 推理优化
Lilian Weng - LLM 推理LLM 推理全景图
Kipp Lee - Transformer Inference Arithmetic推理显存和计算量化分析
NVIDIA BlogGPU 优化技术、Rubin 架构
Sebastian Raschka BlogLLM 技术详解、年度回顾

代码仓库

仓库说明
vLLM最活跃的推理引擎
TensorRT-LLMNVIDIA 官方优化框架
SGLang结构化生成引擎
llm-action中文大模型技术原理汇总
llm-courseLLM 课程合集

学习平台

平台内容
BentoML LLM Handbook免费在线推理手册
Machine Learning MasteryML 基础教程
智源社区中文 AI 学习社区
Datawhale中文开源学习社区

上一节:团队管理