自建 vs 云 API

三种部署方案（自建 GPU 集群 / 云 GPU 实例 / Serverless API）各有优劣，核心在于找到成本和灵活性的最优平衡。

核心概念：三种方案全景对比

方案 1：Serverless API

代表服务： OpenAI API、Anthropic Claude API、Google Gemini API

维度	说明
单价	GPT-5: $1.25/1M input + $10/1M output\nGPT-4o-mini: $0.00015/1K input + $0.0006/1K output\nClaude Sonnet 4: $0.003/1K input + $0.015/1K output\nGemini 3 Flash: $0.000075/1K input + $0.0003/1K output
启动成本	$0
运维	零运维
弹性	自动，无限制
数据安全	数据发送到第三方（合规风险）
延迟	网络往返 + 排队，P99 通常 1-5s
可控性	无（不能选模型版本、不能调参）

适合场景：

PoC / MVP 阶段快速验证
月调用量 < 100 万 tokens（成本可控）
非核心业务、非实时场景
初创团队（无 GPU 运维能力）

方案 2：云 GPU 实例（IaaS）

代表服务： AWS EC2 p5、GCP A2、Azure NDm H100 v5

维度	说明
GPU 月费	H100 8 卡: $7,500-$10,000/月（按需）\nA100 8 卡: $2,300-$3,200/月（按需）
启动时间	分钟级（Spot 可能需排队申请）
运维	中等（需管理 GPU 驱动、推理框架、容器编排）
弹性	好（可按需扩缩，Spot 节省 70%）
数据安全	可控（数据在云厂商内不出域）

适合场景：

月调用量 100 万 - 5000 万 tokens
需要数据合规（金融、医疗）
需要定制化推理框架

方案 3：自建 GPU 集群

代表方案： 购买 GPU 服务器托管在 IDC / 云专线

维度	说明
硬件成本	H100 8 卡服务器: $35,000-$50,000/台\nA100 8 卡服务器: $15,000-$25,000/台
机房托管	$500-$1,500/月/台（含电力）
运维	高（硬件故障处理、驱动更新、网络运维）
弹性	差（采购周期 4-12 周）
数据安全	完全可控
网络	可专线直连，延迟低

适合场景：

月调用量 > 5000 万 tokens
有 GPU 运维团队
对数据安全和延迟有严格要求

TCO 分析（3 年总拥有成本）

场景设定

70B 模型，持续稳定负载
平均 1000 QPS
月处理 5 亿 tokens（~5B tokens）

3 年 TCO 对比

方案	3 年总成本（百万美元）	成本占比
Serverless API	$90.0	████████████████████████████████████████ 100%
云 GPU (按需)	$18.0	████████ 20%
云 GPU (70% Spot)	$6.5	███ 7%
自建 (A100)	$4.5	██ 5%
自建 (H100)	$6.0	███ 7%
混合方案	$5.0	██ 6%

详细拆解：

方案	计算成本	运维人力	其他	3 年总计
Serverless (GPT-4)	$90M	$0	$0	$90M
云 GPU 按需 (H100)	$18M	$1.5M	$0.5M	$20M
云 GPU 70% Spot	$5.4M	$1.5M	$0.5M	$7.4M
自建 A100 (6 台)	$1.2M	$2.4M	$0.8M	$4.4M
自建 H100 (4 台)	$1.6M	$2.4M	$0.8M	$4.8M
混合 (4 台自建 + 云弹性)	$1.6M + $1.5M	$2.0M	$0.5M	$5.6M

Serverless API 在大规模场景下比自建贵 15-20 倍，但启动成本为零。

盈亏平衡点

自建盈亏平衡点 = 自建启动成本 / (Serverless 单价 - 自建单位成本)

示例：
  自建启动成本 = $50,000（1 台 H100 服务器）
  Serverless 单价 = $0.01/1K tokens
  自建单位成本 = $0.002/1K tokens（含运维摊销）
  盈亏平衡点 = $50,000 / ($0.01 - $0.002) = 6.25B tokens
  即：月处理 > 200M tokens，6 个月回本

各方案优劣势汇总

维度	Serverless API	云 GPU IaaS	自建集群	混合方案
启动成本	$0	$0	$35,000+	$35,000+
单位成本	最高	中等	最低	低
弹性	极好	好	差	好
运维复杂度	零	中	高	高
数据安全	低	中	高	高
延迟	高（网络+排队）	中	低	低-中
模型可控性	无	完全	完全	完全
采购周期	即时	分钟级	4-12 周	4-12 周
适合阶段	MVP/PoC	增长期	成熟期	增长期+

混合方案推荐

混合方案配置建议：

层级	配置	流量占比	用途
L1: 自建	4 台 H100 8 卡	70%	日常请求，成本最优
L2: 云 GPU	Spot 按需弹性	20%	工作时段峰值
L3: Serverless	API fallback	10%	极端峰值/降级
路由层	统一 API Gateway	100%	智能路由 + 负载均衡

路由策略：

正常流量 → 自建集群
自建队列深度 > 阈值 → 溢出到云 GPU
云 GPU 也满 → 降级到 Serverless API
流量回落 → 自动缩容云实例

部署视角

迁移路径

阶段 1 (0-3 月):  Serverless API → 快速验证产品
阶段 2 (3-6 月):  Serverless + 云 GPU → 混合，降低核心流量成本
阶段 3 (6-12 月): 自建 + 云弹性 → 大规模成本优化
阶段 4 (12+ 月): 自建为主 + Serverless 降级 → 极致成本

决策树

面试视角

面试官可能问：

"什么时候从 API 切换到自建？"
- 当月 API 费用 > $5,000 且持续增长时，开始评估自建
- 核心考量：调用量规模、数据合规要求、延迟要求
- 盈亏平衡：通常月处理 2 亿 tokens 以上自建开始省钱
"自建集群的隐式成本有哪些？"
- 硬件采购周期长（GPU 供应紧张时 12+ 周）
- 运维人力成本（至少 1-2 名专职 SRE）
- 硬件故障风险和替换成本
- 网络带宽和跨地域部署复杂性
- 技术债积累（自研 vs 使用成熟服务）
"混合方案的流量路由怎么做？"
- 在 API Gateway 层实现基于队列深度的动态路由
- 监控指标：自建队列长度、P99 延迟、GPU 利用率
- 当自建队列 > N 且 P99 > 目标值时，溢出到云
- 回退时逐步切换，避免路由震荡

最佳实践

从 API 开始，数据驱动决策：先用 Serverless 验证，根据实际用量决定是否自建
不要低估运维成本：自建省下的 GPU 费用可能被运维人力抵消
混合方案是最优解：纯自建或纯 API 都不是最佳，70/30 混合性价比最高
保持迁移能力：抽象推理服务接口，确保可以随时切换后端
建立成本监控体系：持续跟踪各层的单 token 成本，确保优化方向正确

成本优化完成 → 进入前沿技术

核心概念：三种方案全景对比​

方案 1：Serverless API​

方案 2：云 GPU 实例（IaaS）​

方案 3：自建 GPU 集群​

TCO 分析（3 年总拥有成本）​

场景设定​

3 年 TCO 对比​

盈亏平衡点​

各方案优劣势汇总​

混合方案推荐​

部署视角​

迁移路径​

决策树​

面试视角​

最佳实践​

核心概念：三种方案全景对比

方案 1：Serverless API

方案 2：云 GPU 实例（IaaS）

方案 3：自建 GPU 集群

TCO 分析（3 年总拥有成本）

场景设定

3 年 TCO 对比

盈亏平衡点

各方案优劣势汇总

混合方案推荐

部署视角

迁移路径

决策树

面试视角

最佳实践