跳到主要内容

FDE 术语 glossary

面试中高频出现的专业术语，按领域分类

模型架构

术语	全称	解释
Transformer	-	基于 Self-Attention 的序列模型架构
Attention	Self-Attention	让每个 token 关注序列中其他 token 的机制
KV Cache	Key-Value Cache	缓存 Decode 阶段的 K 和 V 矩阵，避免重复计算
MHA	Multi-Head Attention	每个 head 有独立的 Q、K、V
GQA	Grouped Query Attention	多个 query head 共享一组 KV，减少显存
MQA	Multi-Query Attention	所有 query head 共享一组 KV
RoPE	Rotary Positional Embedding	通过旋转矩阵注入位置信息的位置编码
SwiGLU	Swish-Gated Linear Unit	现代模型使用的 FFN 激活函数
RMSNorm	Root Mean Square Normalization	轻量级 Normalization，只计算均方根
MoE	Mixture of Experts	每个 token 经过 Router 选择部分 Expert
MLA	Multi-Latent Attention	DeepSeek 使用的 Attention 变体

推理引擎

术语	全称	解释
vLLM	-	UC Berkeley 出品的开源推理引擎
PagedAttention	-	vLLM 核心创新，分页管理 KV Cache
Continuous Batching	-	动态调度 batch，不等最长请求完成
In-flight Batching	-	TRT-LLM 的更细粒度 batch 调度
TGI	Text Generation Inference	HuggingFace 出品的推理框架
SGLang	-	LMSYS 出品，擅长结构化生成
TensorRT-LLM	-	NVIDIA 官方推理优化框架
TTFT	Time To First Token	首 token 延迟
TPOT	Time Per Output Token	每 token 生成时间
Throughput	-	吞吐量，tokens/sec/GPU

量化

术语	全称	解释
PTQ	Post-Training Quantization	训练后量化，不需要重新训练
QAT	Quantization-Aware Training	量化感知训练
AWQ	Activation-aware Weight Quantization	保护大激活对应权重的量化方案
GPTQ	-	逐层量化，考虑层间误差累积
SmoothQuant	-	平滑激活和权重分布，便于同时量化
FP8	8-bit Floating Point	8-bit 浮点格式，H100 原生支持
INT8	8-bit Integer	8-bit 整数格式
INT4	4-bit Integer	4-bit 整数格式，极致压缩

GPU 与底层

术语	全称	解释
SM	Streaming Multiprocessor	GPU 基本执行单元
Tensor Core	-	矩阵乘法专用单元
CUDA Core	-	标量计算单元
HBM	High Bandwidth Memory	GPU 高带宽显存
NVLink	-	NVIDIA GPU 间高速互联，600 GB/s
TP	Tensor Parallel	张量并行，层内矩阵切分
PP	Pipeline Parallel	流水线并行，层间分配到不同 GPU
DP	Data Parallel	数据并行，请求分发到不同副本
MIG	Multi-Instance GPU	把一张 GPU 切分成多个独立实例

部署与运维

术语	全称	解释
SLO	Service Level Objective	服务等级目标
SRE	Site Reliability Engineering	站点可靠性工程
HPA	Horizontal Pod Autoscaler	K8s 水平扩缩容
Pod	-	K8s 最小部署单元
A/B Testing	-	两个版本对比测试
Canary	-	灰度发布，逐步放量
RAG	Retrieval-Augmented Generation	检索增强生成
Agent	-	能调用工具、自主规划的智能体
Speculative Decoding	投机解码	用小模型预测加速大模型生成
Flash Attention	-	高效 Attention 算法，减少显存访问

模型架构
推理引擎
量化
GPU 与底层
部署与运维