跳到主要内容

模型是怎么工作的

理解大模型内部的计算机制，是所有推理优化的基础。

模块概览

这个模块深入讲解 LLM 的核心工作原理。FDE 不需要手推数学公式，但必须理解每个组件的计算特征，才能回答诸如"为什么长上下文延迟会飙升"、"GQA 对显存有什么影响"这类问题。

学习路径

顺序	文档	核心内容	面试考点
1	Transformer 架构概述	Decoder-only 设计、Prefill/Decode 两阶段	推理两阶段区别、KV Cache 显存估算
2	Attention 机制深入	MHA、GQA、MQA、Flash Attention	GQA vs MHA 的区别和部署影响
3	KV Cache 详解	KV Cache 原理、显存计算、优化策略	为什么 KV Cache 占显存 60-80%
4	FFN、归一化与位置编码	SwiGLU、RMSNorm、RoPE	为什么用 RoPE 不用绝对位置编码
5	解码策略	Greedy、Top-k、Top-p、Beam Search	如何平衡生成质量和多样性
6	MoE 架构	混合专家模型原理和部署挑战	MoE 模型的显存和吞吐特点
7	MLA 深度解析	多头潜在注意力（DeepSeek 使用）	MLA vs MHA 的区别
8	多模态模型	视觉+文本的架构设计	多模态模型的推理延迟特点
9	思维链模型	o1 等推理模型的思维链机制	推理模型 vs 普通模型的差异
10	LLM 预训练	从 0 训练一个 LLM 的流程	预训练的关键步骤
11	预训练 vs 后训练	SFT、RLHF、DPO 等方法	对齐技术的原理
12	LLM 微调	LoRA、QLoRA 等微调方法	LoRA 的显存和效果特点
13	Scaling Law	Chinchilla 等规模法则	如何选择模型大小和训练数据量

前置知识

建议先完成 L1 入门：什么是 FDE 了解岗位定位和学习路径。

上一节：L1 入门：什么是 FDE 下一节：Transformer 架构概述

模块概览
学习路径
前置知识