跳到主要内容

成本与运营

推理成本是 LLM 商业化的核心瓶颈。理解成本构成、优化策略和容量规划，才能在保证服务质量的同时控制成本。

为什么这个模块对 FDE 至关重要

FDE 不是纯粹的工程师，而是技术决策者。你需要回答 CEO/CFO 的问题：

"70B 模型的每 1K token 成本是多少？怎么降到原来的 1/10？"
"月调用量 5 亿 token，应该自建集群还是用云 API？多久回本？"
"GPU 利用率只有 30%，是浪费了还是正常的？"
"未来半年 QPS 预计翻倍，需要采购多少 GPU？"

推理优化的最终目标不是"跑得快"，而是"在 SLA 约束下跑得最便宜"。

成本拆解全景

五层优化框架

优化效果累计

优化步骤	累计降幅	剩余成本
基线 (FP16, 静态 batch)	0%	100%
选对模型 (70B→13B for 80% requests)	30-50%	50-70%
+ Continuous Batching	50-70%	15-35%
+ INT8 量化	30-50%	8-25%
+ 语义缓存	5-40%	5-20%
+ 自动扩缩 + Spot	30-50%	5-20%

综合优化效果：总成本可降低 80-95%。

自建 vs 云端决策框架

混合架构（推荐）

迁移路径

容量规划三步法

不同 SLA 对 GPU 数量的影响

SLA 要求	GPU 超额配置	Batch Size	GPU 利用率	冗余	GPU 数量差异
严格 (P99 < 500ms)	2.0x	4-8	40-50%	N+2	基准
宽松 (P99 < 2s)	1.3-1.5x	16-32	70-85%	N+1	省 40-50%

学习路径

顺序	文档	核心内容	面试考点
1	成本拆解	GPU 成本、推理成本构成、单位 token 成本	如何估算 70B 模型的推理成本
2	优化策略	量化、批处理、模型选择	降本增效的最佳实践
3	容量规划	预测未来资源需求	如何规划 GPU 采购计划
4	自建 vs 云端	自建集群 vs 云服务商对比	什么时候选自建、什么时候选云端

模块知识结构图

前置知识

建议先完成动手实验积累实际操作经验。

上一节：动手实验 下一节：成本拆解

为什么这个模块对 FDE 至关重要
成本拆解全景
五层优化框架
- 优化效果累计
自建 vs 云端决策框架
- 混合架构（推荐）
- 迁移路径
容量规划三步法
- 不同 SLA 对 GPU 数量的影响
学习路径
模块知识结构图
前置知识