跳到主要内容

面试问答库

30 道高频面试题,按难度分三级


⭐ 基础题

#问题要点
1Transformer 推理分哪两个阶段?Prefill + Decode,Decode 占 80-95% 时间
2什么是 KV Cache?为什么它重要?避免重复计算 K 和 V,占 60-80% 推理显存
3MHA、GQA、MQA 的区别?KV head 数量不同,影响 KV Cache 大小和推理速度
4为什么 decode 阶段是 memory-bound?每步都要加载全部权重,计算量小
5vLLM 的 PagedAttention 解决了什么问题?KV Cache 显存碎片化
6Continuous Batching 比 Static Batching 好在哪?不等待最长请求,GPU 始终保持高利用率
7INT8 量化 vs FP8 量化的区别?INT8 是整数,FP8 是浮点(动态范围更广)
8什么是 Tensor Parallel?把权重矩阵切分到多张 GPU,每层需要同步
9GPU 显存被什么占用?模型权重 + KV Cache + 激活显存
10TTFT 和 TPOT 分别是什么?首 token 延迟 / 每 token 生成时间

⭐⭐ 进阶题

#问题要点
11怎么优化推理延迟?先 profiling 定位瓶颈,再选优化手段
12vLLM 和 TensorRT-LLM 怎么选?vLLM 生态好,TRT-LLM 性能强,看硬件和需求
13OOM 了怎么排查?降 batch size / 降 seq len / 换量化
14GQA 对部署有什么影响?KV Cache 更小,可以支持更大 batch / 更长上下文
15MoE 模型部署和 Dense 有什么不同?Expert 并行、负载不均、路由复杂度
16GPU 利用率上不去,怎么排查?batch 太小 / CPU 瓶颈 / 模型太小 / 通信开销
17量化后精度下降怎么办?换量化方案 / 混合精度 / QAT / prompt 补偿
18Speculative Decoding 的原理?小模型预测 + 大模型验证,跳过大模型的 decode 步骤
19怎么做容量规划?峰值 QPS × 推理时间 ÷ 单 GPU 吞吐 + 容灾冗余
20冷启动问题怎么解决?预热、共享显存、预测性扩容

⭐⭐⭐ 高阶题

#问题要点
21流量翻 10 倍,系统怎么扛?垂直→水平→架构优化→限流降级
22设计一个支撑百万 QPS 的推理平台明确需求→画架构→讨论挑战→演进路线
23TP=8 时效率只有 60%,怎么改善?改 DP 不增 TP、优化通信、换网络拓扑
24如果让你自己实现 PagedAttention,怎么设计?分页、Page Table、按需分配、显存回收
25自建 vs 云 API 的成本拐点在哪?看月调用量、GPU 成本、人力运维成本
26FP8 为什么在 H100 上比 INT8 快?H100 原生 FP8 Tensor Core,不需要反量化
27KV Cache eviction 策略怎么设计?重要性评分、局部性、注意力权重
28多可用区部署怎么保证一致性?无状态服务 + 模型权重相同 + 快速 DNS 切换
29怎么评估一个新技术值不值得引入?原理理解→PoC 验证→benchmark 对比→风险评估
30你最大的技术决策失误是什么?讲真实经历,重点讲学到了什么

答题通用框架

技术题:分析瓶颈 → 列出方案 → 给数据
架构题:澄清需求 → 画架构图 → 讨论挑战 → 演进路线
行为题:Situation → Task → Action → Result

每个问题都应该能用 2-3 分钟回答清楚,有结构、有数据、有思考过程。

上一节:合规与安全 | 下一节:变更管理与组织采纳