跳到主要内容

模型是怎么工作的

理解大模型内部的计算机制,是所有推理优化的基础。

模块概览

这个模块深入讲解 LLM 的核心工作原理。FDE 不需要手推数学公式,但必须理解每个组件的计算特征,才能回答诸如"为什么长上下文延迟会飙升"、"GQA 对显存有什么影响"这类问题。

学习路径

顺序文档核心内容面试考点
1Transformer 架构概述Decoder-only 设计、Prefill/Decode 两阶段推理两阶段区别、KV Cache 显存估算
2Attention 机制深入MHA、GQA、MQA、Flash AttentionGQA vs MHA 的区别和部署影响
3KV Cache 详解KV Cache 原理、显存计算、优化策略为什么 KV Cache 占显存 60-80%
4FFN、归一化与位置编码SwiGLU、RMSNorm、RoPE为什么用 RoPE 不用绝对位置编码
5解码策略Greedy、Top-k、Top-p、Beam Search如何平衡生成质量和多样性
6MoE 架构混合专家模型原理和部署挑战MoE 模型的显存和吞吐特点
7MLA 深度解析多头潜在注意力(DeepSeek 使用)MLA vs MHA 的区别
8多模态模型视觉+文本的架构设计多模态模型的推理延迟特点
9思维链模型o1 等推理模型的思维链机制推理模型 vs 普通模型的差异
10LLM 预训练从 0 训练一个 LLM 的流程预训练的关键步骤
11预训练 vs 后训练SFT、RLHF、DPO 等方法对齐技术的原理
12LLM 微调LoRA、QLoRA 等微调方法LoRA 的显存和效果特点
13Scaling LawChinchilla 等规模法则如何选择模型大小和训练数据量

前置知识

建议先完成 L1 入门:什么是 FDE 了解岗位定位和学习路径。


上一节:L1 入门:什么是 FDE 下一节:Transformer 架构概述