跳到主要内容

知识管理

让经验沉淀为团队资产,而不是随着人员流动而流失


为什么 FDE 团队需要知识管理

FDE 是一个技术快速迭代的方向,知识管理的重要性体现在:

  1. 技术更新快:上个月的最优方案这个月可能就被替代
  2. 踩坑成本高:同样的 OOM 问题不能每次都让不同的人踩一遍
  3. 人员流动:核心成员离职后,经验不能跟着走
  4. 新人上手:新人应该站在团队的肩膀上,而不是从 0 开始

知识库建设

知识库结构

知识库/
├── 模型卡片/ # 每个模型的部署信息和性能数据
│ ├── Llama-3-8B.md
│ ├── Llama-3-70B.md
│ ├── Qwen-2-7B.md
│ └── ...
├── 性能基线/ # 各 GPU 型号上的性能基准
│ ├── A100-80G.md
│ ├── H100.md
│ └── L40S.md
├── 最佳实践/ # 部署 checklist、优化手册、SOP
│ ├── 模型部署 SOP.md
│ ├── 量化操作手册.md
│ └── 线上排查指南.md
├── 踩坑记录/ # OOM 排查、高延迟案例
│ ├── OOM 案例集合.md
│ ├── 延迟升高排查案例.md
│ └── GPU 掉卡案例.md
├── 技术评估报告/ # 新技术评估
│ ├── vLLM vs TGI 对比.md
│ ├── FP8 量化评估.md
│ └── Speculative Decoding 评估.md
├── 培训资料/ # onboarding 文档、技术分享
│ ├── 新人 onboarding 指南.md
│ └── 技术分享合集/
└── 前沿跟踪/ # 论文笔记、技术周报
├── arXiv 论文笔记/
└── 技术周报/

模型卡片模板

每个模型一张卡片,是知识库中最核心的资产:

# [模型名称] 模型卡片

## 基本信息
- 参数量:XX B
- 架构:Dense / MoE
- 上下文长度:XXK
- 许可证:XX

## GPU 配置
- 部署方式:单卡 / TP2 / TP4
- 量化方式:FP16 / INT8 / INT4
- 显存占用:XX GB

## 性能基线
| 指标 || 测试条件 |
|------|-----|----------|
| P50 延迟 | XX ms | input=128, output=256 |
| P99 延迟 | XX ms | input=128, output=256 |
| 吞吐 | XX tok/s | batch_size=32 |
| GPU 利用率 | XX% | |

## 已知问题
- [问题 1] + 解决方案
- [问题 2] + 解决方案

## 优化建议
- 建议 1
- 建议 2

## 部署记录
| 日期 | 版本 | 变更 | 操作人 |
|------|------|------|--------|

性能基线模板

# [GPU 型号] 性能基线

## 硬件信息
- GPU 型号:XX
- 显存:XX GB
- CUDA 版本:XX

## 基准测试结果
| 模型 | 量化 | 延迟(P50) | 延迟(P99) | 吞吐 | GPU 利用率 |
|------|------|-----------|-----------|------|------------|

## 注意事项
- [GPU 特有的坑或优化点]

## 测试环境
- 推理引擎版本
- CUDA 驱动版本
- 测试数据集

踩坑记录模板

# [问题描述] 踩坑记录

## 现象
- 发生时间:
- 影响范围:
- 症状描述:

## 排查过程
1. 第一步:[做了什么,发现了什么]
2. 第二步:[做了什么,发现了什么]
3. ...

## 根因
- 最终定位的根因:

## 解决方案
- 紧急修复方案:
- 长期修复方案:

## 预防措施
- 以后怎么避免:

## 关联知识
- 相关文档链接

文档规范

文档质量标准

每篇技术文档都应该满足以下标准:

标准要求
结构清晰有标题、段落分层,能一目了然地找到信息
有数据支撑结论必须有数据支持,不只是定性描述
有可操作性读者看完后知道怎么做
有时效标注标注最后更新日期,过期内容有明显标记
有作者信息标注作者和审核人

文档格式规范

---
title: 文档标题
author: 作者
date: 创建日期
updated: 最后更新日期
tags: [标签1, 标签2]
---

# 标题

> 一句话概括核心内容

## 背景
...

## 方案
...

## 数据
...

## 结论
...

## 参考
...

文档 Review 流程

作者撰写 → 同行 Review → 发布 → 定期审计
  • 同行 Review:每篇重要文档发布前由一位同行 Review
  • 定期审计:每季度审计一次知识库,标记过期内容
  • 版本管理:重要文档有版本历史,记录变更

技术分享机制

分享与知识库的关系

技术分享不是"讲完就散",而是知识沉淀的入口:

技术分享 → 产出文档 → 进入知识库 → 持续更新 → 团队复用

每次技术分享必须产出至少一篇文档,否则分享的价值会随着时间流失。

分享知识库的运营

角色职责
知识库管理员(轮值)负责文档结构维护、过期内容标记
贡献者(全体)撰写和更新文档
Reviewer(轮值)Review 新文档的质量

知识库的使用指标

指标目标追踪方式
文档总数持续增长月度统计
月度新增文档≥ 8 篇月度统计
文档阅读量人均每周 ≥ 3 篇平台数据
文档更新频率每月更新率 ≥ 20%季度审计
知识库满意度团队评分 ≥ 4/5季度调研

知识传承

人员离职时的知识交接

当核心成员离职时,必须有正式的知识交接流程:

交接清单 → 知识文档化 → 1v1 知识传递 → 验收确认
步骤内容时长
交接清单列出该成员负责的所有工作和未完成事项1 天
知识文档化将隐性知识写进文档3-5 天
1v1 知识传递和接手人面对面讲解关键知识1-2 天
验收确认接手人确认理解了关键知识1 天

知识传承的质量保障

  • 核心知识不能只存在于个人脑子里
  • 每个重要模块至少有 2 个人了解
  • 新人 onboarding 文档持续更新
  • 每季度审计知识库,确保内容有效

面试视角:如何在面试中展示知识管理

当面试官问"团队的知识怎么传承"或"你怎么管理技术知识"时:

"我建了一个完整的知识库体系,核心是几个关键文档模板:
模型卡片记录每个模型的部署信息和性能基线,
踩坑记录让团队不重复踩同样的坑,
技术评估报告确保决策有数据支撑。
同时我规定每次技术分享必须产出文档,否则分享的价值会流失。
人员离职时有正式的知识交接流程,确保经验不会跟着人走。
效果是,新人上手时间从 2 个月缩短到 2 周,
同样的坑不再重复踩。"

下一节:招聘策略