业务指标体系 — 让技术成果被看见

技术指标再漂亮，如果无法映射到业务价值，就无法获得持续投入。本章讲解如何将 LLM 的技术指标转化为 CEO 听得懂的业务语言。

前置知识

为什么技术指标不够

技术团队往往关注 TTFT（首 Token 延迟）、吞吐量、GPU 利用率等指标，但业务决策者关心的是完全不同的东西：

工程师汇报：  我们的模型 TTFT 降低到 200ms，吞吐量提升 3 倍！
CEO 的反应：  所以呢？这能为公司省多少钱？多赚多少钱？

工程师汇报：  AI 工单处理准确率 92%，平均处理时长从 15 分钟降到 3 分钟！
CEO 的反应：  很好，这意味着什么？需要多少投入？ROI 是多少？

核心原则： 每个技术指标都必须能映射到至少一个业务指标。

技术指标 vs 业务指标映射

技术指标	业务指标	映射方法
Token 生成速度	工单平均处理时长	统计响应时间与处理时长的相关性
模型准确率	客户满意度 / NPS	A/B 测试对比
GPU 利用率	单次业务调用成本	成本分摊计算
并发数	峰值时段服务客户数	容量规划
幻觉率	工单升级率（Escalation Rate）	人工介入比例统计
工具调用成功率	自动化流程完成率	端到端成功率统计

指标映射架构

映射公式示例：

单次处理成本 = (GPU 小时成本 / 每小时处理工单数) + API 调用成本
月度人力节省 = (AI 处理工单数 × 人工平均处理时间 × 人工时薪) - AI 运营成本
ROI = (月度人力节省 + 额外收入 - AI 总成本) / AI 总成本 × 100%

如何定义 AI 项目的成功指标（OKR 方法）

用 OKR 框架定义 AI 项目目标，确保技术目标和业务目标对齐：

Objective: 用 AI 将客服工单处理效率提升 50%

Key Results:
  KR1: 工单自动处理率从 20% 提升到 60%（业务指标）
  KR2: 平均工单处理时长从 15 分钟降到 8 分钟（业务指标）
  KR3: AI 处理工单的客户满意度 ≥ 人工处理的 90%（质量指标）
  KR4: 单次工单处理成本降低 40%（成本指标）
  KR5: 模型幻觉率 < 3%（技术指标，支撑 KR3）

制定 OKR 的注意事项：

有基线：没有基线就无法衡量进步（"目前自动处理率 20%"）
可测量：每个 KR 必须有明确的计算方法和数据来源
有挑战但可达：OKR 达成 60-80% 是合理的
区分领先指标和滞后指标：
- 领先指标（Leading）：自动化率、API 调用量 → 可实时影响
- 滞后指标（Lagging）：客户满意度、收入 → 反映长期效果

A/B 测试在 AI 项目中的应用

实验设计

关键设计要素

要素	说明	示例
随机化	确保实验组和对照组的用户特征分布一致	用用户 ID 的 hash 值分流
样本量	基于预期效应大小和统计功效计算	检测 10% 差异，需要每组 2000+ 样本
实验周期	覆盖完整的业务周期（至少 1-2 周）	包含工作日和周末
主要指标	实验关注的核心指标（不超过 3 个）	工单处理时长、客户满意度
护栏指标	不能恶化的指标	系统可用性、错误率

统计显著性判断

from scipy import stats

# A/B 测试：比较两组客户满意度
control_scores = [4.2, 3.8, 4.5, ...]  # 对照组
treatment_scores = [4.5, 4.1, 4.7, ...]  # 实验组

t_stat, p_value = stats.ttest_ind(treatment_scores, control_scores)

if p_value < 0.05:
    print(f"结果统计显著 (p={p_value:.4f})，实验组优于对照组")
else:
    print(f"结果不显著 (p={p_value:.4f})，需要更多样本")

常见陷阱

陷阱	描述	如何避免
辛普森悖论	分组看都赢了，合起来却输了	分析时考虑用户分层，按用户类型分别看
选择偏差	实验组和对照组的用户特征不一致	严格随机分流，分流后检查特征分布
新奇效应	用户刚开始用觉得新鲜，效果好，后来下降	实验周期至少 2 周，观察效果是否衰减
P-hacking	反复看数据，等 p < 0.05 就停	预先确定实验周期和样本量，不中途看结果
多指标问题	测了 20 个指标，碰巧有 1 个显著	预先确定 1-3 个主要指标，其他作为参考

Drift Detection — 模型输出质量退化检测

为什么需要

AI 模型的输出质量会随时间退化，原因包括：

训练数据老化：模型训练时的数据模式与现实不再匹配
用户行为变化：用户提问方式、关注点发生变化
业务规则变更：公司政策、产品功能变更导致 AI 的回答过时
外部依赖变化：API 返回的数据格式或内容变化

典型案例：
  上线时 AI 分类准确率 95% → 3 个月后降至 82%
  原因：新增了 3 种工单类型，但模型没见过这些类型的样本

检测方法

LLM-as-a-Judge 实现

from pydantic import BaseModel

class QualityScore(BaseModel):
    accuracy: int  # 1-5 分
    completeness: int  # 1-5 分
    helpfulness: int  # 1-5 分
    overall: float  # 0-100

def judge_response(request: str, response: str, ground_truth: str) -> QualityScore:
    """用强模型评估弱模型的输出质量"""
    prompt = f"""作为评估专家，请对以下 AI 回答进行评分：

用户请求：{request}
AI 回答：{response}
参考答案：{ground_truth}

请从准确性、完整性、有用性三个维度评分（1-5 分），并给出总体得分（0-100）。"""

    response = llm.with_structured_output(QualityScore).invoke(prompt)
    return response

# 每日自动评估
daily_scores = []
for sample in daily_sample_100():
    score = judge_response(sample.request, sample.response, sample.ground_truth)
    daily_scores.append(score.overall)

avg_score = sum(daily_scores) / len(daily_scores)
if avg_score < BASELINE_SCORE * 0.9:  # 低于基线 10% 告警
    alert(f"模型质量下降：当前 {avg_score:.1f}，基线 {BASELINE_SCORE}")

告警与自动回滚策略

drift_detection:
  # 检测频率
  schedule: "*/6h"  # 每 6 小时评估一次

  # 告警阈值
  alert:
    quality_drop_threshold: 10%  # 质量下降超过 10% 告警
    volume_threshold: 500        # 评估样本至少 500 条

  # 自动回滚条件
  auto_rollback:
    conditions:
      - quality_drop > 20% AND duration > 24h
      - error_rate > 15% AND duration > 1h
      - customer_complaint_rate > 5%

  # 回滚动作
  rollback_actions:
    - switch_to_previous_model  # 切回上一个稳定版本
    - increase_human_review     # 提升人工审核比例
    - enable_fallback_rules     # 启用规则引擎兜底

部署视角：指标采集架构

关键仪表盘设计：

仪表盘	受众	核心指标	更新频率
技术运营	工程师	延迟、错误率、GPU 利用率、队列深度	实时（10s）
业务运营	运营经理	自动处理率、人工介入率、处理时长	5 分钟
高管报告	CEO/CFO	月度人力节省、ROI、客户满意度变化	每日

面试视角

"怎么向 CEO 汇报 AI 项目的效果？"满分回答

面试官：你怎么向 CEO 汇报 AI 项目的效果？

1. 先说结论，不说技术细节（30 秒）
   → "AI 客服上线 3 个月，自动处理了 62% 的工单，节省了 ¥450K/月人力成本，
     客户满意度保持在 4.5/5，和人工持平。"

2. 展示 ROI 数据（30 秒）
   → "投入：AI 基础设施 + 开发成本 ≈ ¥200K/月
      节省：减少 8 个客服人员 ≈ ¥480K/月
      ROI：(480-200)/200 = 140%，预计 2 个月回本"

3. 展示趋势和对比（30 秒）
   → "和上线前比：平均处理时长从 15min 降到 3.2min（-79%）
      和上季度比：客户满意度从 4.3 提升到 4.5
      自动处理率：从 20% 逐月提升到 62%，每月增长约 15%"

4. 坦诚风险和下一步计划（30 秒）
   → "当前风险：模型准确率在新型工单上有下降趋势（已发现并告警）
      下一步：计划扩展到售前咨询场景，预计可再节省 ¥200K/月
      需要什么支持：需要增加 1 个数据工程师做数据管道优化"

关键要点：用数字说话，先说结果再说过程，坦诚风险，给出清晰的下一步。

最佳实践

先定义成功再开工：项目启动时就明确 OKR，不要等上线了才想怎么衡量
技术 + 业务双仪表盘：工程师看技术指标，管理层看业务指标，两者都要有
基线！基线！基线！：没有基线就无法衡量进步，上线前务必收集至少 2 周的基线数据
A/B 测试要严谨：预先确定样本量和实验周期，不要"看看数据再说"
建立质量基线：上线时对 AI 输出质量做全面评估，作为后续 Drift Detection 的基准
定期质量巡检：每月做一次 LLM-as-a-Judge 全量评估，不要等用户投诉了才发现
成本透明化：每次请求的成本要可计算、可分摊到具体业务线
告警要分级别：P0（自动回滚）、P1（2 小时内响应）、P2（工作日内处理），不要所有告警都一样紧急

上一节：企业系统集成

前置知识​

为什么技术指标不够​

技术指标 vs 业务指标映射​

指标映射架构​

如何定义 AI 项目的成功指标（OKR 方法）​

A/B 测试在 AI 项目中的应用​

实验设计​

关键设计要素​

统计显著性判断​

常见陷阱​

Drift Detection — 模型输出质量退化检测​

为什么需要​

检测方法​

LLM-as-a-Judge 实现​

告警与自动回滚策略​

部署视角：指标采集架构​

面试视角​

"怎么向 CEO 汇报 AI 项目的效果？"满分回答​

最佳实践​

前置知识

为什么技术指标不够

技术指标 vs 业务指标映射

指标映射架构

如何定义 AI 项目的成功指标（OKR 方法）

A/B 测试在 AI 项目中的应用

实验设计

关键设计要素

统计显著性判断

常见陷阱

Drift Detection — 模型输出质量退化检测

为什么需要

检测方法

LLM-as-a-Judge 实现

告警与自动回滚策略

部署视角：指标采集架构

面试视角

"怎么向 CEO 汇报 AI 项目的效果？"满分回答

最佳实践