跳到主要内容

成本与运营

推理成本是 LLM 商业化的核心瓶颈。理解成本构成、优化策略和容量规划,才能在保证服务质量的同时控制成本。

为什么这个模块对 FDE 至关重要

FDE 不是纯粹的工程师,而是技术决策者。你需要回答 CEO/CFO 的问题:

  • "70B 模型的每 1K token 成本是多少?怎么降到原来的 1/10?"
  • "月调用量 5 亿 token,应该自建集群还是用云 API?多久回本?"
  • "GPU 利用率只有 30%,是浪费了还是正常的?"
  • "未来半年 QPS 预计翻倍,需要采购多少 GPU?"

推理优化的最终目标不是"跑得快",而是"在 SLA 约束下跑得最便宜"。

成本拆解全景

五层优化框架

优化效果累计

优化步骤累计降幅剩余成本
基线 (FP16, 静态 batch)0%100%
选对模型 (70B→13B for 80% requests)30-50%50-70%
+ Continuous Batching50-70%15-35%
+ INT8 量化30-50%8-25%
+ 语义缓存5-40%5-20%
+ 自动扩缩 + Spot30-50%5-20%

综合优化效果:总成本可降低 80-95%。

自建 vs 云端决策框架

混合架构(推荐)

迁移路径

容量规划三步法

不同 SLA 对 GPU 数量的影响

SLA 要求GPU 超额配置Batch SizeGPU 利用率冗余GPU 数量差异
严格 (P99 < 500ms)2.0x4-840-50%N+2基准
宽松 (P99 < 2s)1.3-1.5x16-3270-85%N+1省 40-50%

学习路径

顺序文档核心内容面试考点
1成本拆解GPU 成本、推理成本构成、单位 token 成本如何估算 70B 模型的推理成本
2优化策略量化、批处理、模型选择降本增效的最佳实践
3容量规划预测未来资源需求如何规划 GPU 采购计划
4自建 vs 云端自建集群 vs 云服务商对比什么时候选自建、什么时候选云端

模块知识结构图

前置知识

建议先完成 动手实验 积累实际操作经验。


上一节:动手实验 下一节:成本拆解