跳到主要内容

动手实验

光看不够,必须动手。这些实验按难度递增排列,覆盖 FDE 核心技能栈。建议按顺序完成,积累可讲述的实战经验。

前置知识

为什么需要动手实验

面试问的是 "你做过什么" 而不是 "你读过什么"。这些实验让你:

  • 积累真实经验:亲手跑通部署、量化、profiling 全流程
  • 形成项目故事:每个实验都是一个可以讲述的 STAR 故事
  • 建立直觉:只有亲自看到日志、碰到 OOM、调过 batch size,才能真正理解技术文档在讲什么

本模块学习地图

实验分为三条线:

  • 基础线(实验 1 → 2 → 3 → 4):从部署到量化到性能调优的完整链路
  • 并行线(实验 2 → 5):量化之后直接学习多卡部署
  • 实战线(实验 3 → 6):profiling 之后学习 OOM 排查
实验难度涉及技术关联技能预计时间
用 vLLM 部署 7B 模型vLLM、OpenAI API推理引擎基础30 分钟
量化部署实验⭐⭐AWQ、INT8、FP8量化策略选择2 小时
性能 Profiling⭐⭐nsight、nvidia-smi瓶颈分析1 小时
连续批处理调优⭐⭐⭐Continuous Batching吞吐优化1 小时
多卡 TP 部署⭐⭐⭐vLLM TP分布式推理1 小时
OOM 排查演练⭐⭐显存分析故障排查30 分钟

面试视角

实验对应的面试问题
实验 1"你部署过哪些模型?遇到过什么问题?"
实验 2"量化后精度下降怎么办?"
实验 3"你怎么找到推理服务的性能瓶颈?"
实验 4"Continuous Batching 的原理是什么?"
实验 5"解释 Tensor Parallel 的通信开销"
实验 6"遇到 OOM 你怎么排查?"

学完本模块后,你应该能够...

  • 独立部署一个 7B 模型并提供 OpenAI 兼容 API
  • 对模型进行量化并对比精度/性能差异
  • 使用 profiling 工具定位推理瓶颈
  • 调整 batch size 参数优化吞吐
  • 在多 GPU 上配置 Tensor Parallel
  • 独立排查 OOM 问题并给出解决方案

上一节:成本与运营 | 下一节:AI 驱动业务流程