成本与运营
推理成本是 LLM 商业化的核心瓶颈。理解成本构成、优化策略和容量规划,才能在保证服务质量的同时控制成本。
为什么这个模块对 FDE 至关重要
FDE 不是纯粹的工程师,而是技术决策者。你需要回答 CEO/CFO 的问题:
- "70B 模型的每 1K token 成本是多少?怎么降到原来的 1/10?"
- "月调用量 5 亿 token,应该自建集群还是用云 API?多久回本?"
- "GPU 利用率只有 30%,是浪费了还是正常的?"
- "未来半年 QPS 预计翻倍,需要采购多少 GPU?"
推理优化的最终目标不是"跑得快",而是"在 SLA 约束下跑得最便宜"。
成本拆解全景
五层优化框架
优化效果累计
| 优化步骤 | 累计降幅 | 剩余成本 |
|---|---|---|
| 基线 (FP16, 静态 batch) | 0% | 100% |
| 选对模型 (70B→13B for 80% requests) | 30-50% | 50-70% |
| + Continuous Batching | 50-70% | 15-35% |
| + INT8 量化 | 30-50% | 8-25% |
| + 语义缓存 | 5-40% | 5-20% |
| + 自动扩缩 + Spot | 30-50% | 5-20% |
综合优化效果:总成本可降低 80-95%。
自建 vs 云端决策框架
混合架构(推荐)
迁移路径
容量规划三步法
不同 SLA 对 GPU 数量的影响
| SLA 要求 | GPU 超额配置 | Batch Size | GPU 利用率 | 冗余 | GPU 数量差异 |
|---|---|---|---|---|---|
| 严格 (P99 < 500ms) | 2.0x | 4-8 | 40-50% | N+2 | 基准 |
| 宽松 (P99 < 2s) | 1.3-1.5x | 16-32 | 70-85% | N+1 | 省 40-50% |
学习路径
| 顺序 | 文档 | 核心内容 | 面试考点 |
|---|---|---|---|
| 1 | 成本拆解 | GPU 成本、推理成本构成、单位 token 成本 | 如何估算 70B 模型的推理成本 |
| 2 | 优化策略 | 量化、批处理、模型选择 | 降本增效的最佳实践 |
| 3 | 容量规划 | 预测未来资源需求 | 如何规划 GPU 采购计划 |
| 4 | 自建 vs 云端 | 自建集群 vs 云服务商对比 | 什么时候选自建、什么时候选云端 |
模块知识结构图
前置知识
建议先完成 动手实验 积累实际操作经验。