推荐资源
论文、博客、代码仓库、工具,按主题分类
核心论文
| 论文 | 年份 | 主题 |
|---|---|---|
| Attention Is All You Need | 2017 | Transformer 原始论文 |
| Grouped Query Attention | 2023 | GQA 方案 |
| FlashAttention | 2022 | 高效 Attention 算法 |
| FlashAttention-3 | 2024 | 异步 + FP8 Attention |
| Orca (Continuous Batching) | 2023 | 持续批处理 |
| AWQ | 2023 | 激活感知量化 |
| GPTQ | 2022 | 逐层量化 |
| SmoothQuant | 2022 | 平滑量化方案 |
| Speculative Decoding | 2023 | 投机解码 |
| EAGLE-3 | 2025 | 特征级推测解码 2-6x |
| SpecForge | 2026 | 灵活推测解码训练框架 |
| FLy Loosely Speculative | 2025 | 宽松推测解码 |
| PagedAttention | 2023 | vLLM 核心技术 |
| DistServe | 2024 | Prefill-Decode 分离 |
必读博客
| 来源 | 内容 |
|---|---|
| vLLM Blog | PagedAttention、Continuous Batching 原理 |
| SGLang Blog | RadixAttention、Agentic 推理优化 |
| Lilian Weng - LLM 推理 | LLM 推理全景图 |
| Kipp Lee - Transformer Inference Arithmetic | 推理显存和计算量化分析 |
| NVIDIA Blog | GPU 优化技术、Rubin 架构 |
| Sebastian Raschka Blog | LLM 技术详解、年度回顾 |
代码仓库
| 仓库 | 说明 |
|---|---|
| vLLM | 最活跃的推理引擎 |
| TensorRT-LLM | NVIDIA 官方优化框架 |
| SGLang | 结构化生成引擎 |
| llm-action | 中文大模型技术原理汇总 |
| llm-course | LLM 课程合集 |
学习平台
| 平台 | 内容 |
|---|---|
| BentoML LLM Handbook | 免费在线推理手册 |
| Machine Learning Mastery | ML 基础教程 |
| 智源社区 | 中文 AI 学习社区 |
| Datawhale | 中文开源学习社区 |
上一节:团队管理