学习检查清单与面试锦囊
对照清单逐一突破,避免遗漏重点。2026 年 Agentic AI 工程师面试看重实战能力和工程思维——能说出"为什么"比知道"怎么做"更重要。
前置知识
- 已完成前 9 个阶段的学习
- 每个阶段至少完成了一个实战环节
核心概念
10 步学习检查清单
1. Python 根基
- 类型注解、Pydantic 数据建模、异步编程
- 项目分层(domain/agents/tools/rag/guardrails)
- 能手写一个带工具调用的 Agent(不调框架)
- 能编写异步工具 + 测试(pytest + pytest-asyncio)
2. LLM 通识
- 能估算 Token 消耗并优化上下文预算
- 理解函数调用的完整流程(Schema → 调用 → 执行 → 回填)
- 能实现幻觉防护(系统提示约束 + Schema 验证 + 后处理检测)
- 能根据场景选型模型(GPT-4o / Claude / 千问 / DeepSeek)
3. Context Engineering
- 掌握 5 层上下文架构(对话/知识/程序/社会/元上下文)
- 能编写结构化系统提示(角色 + 约束 + 工具策略 + 输出格式 + 错误处理)
- 理解提示版本化管理和 A/B 测试
- 能评估系统提示的好坏(正确性、完整性、清晰度、Token 效率)
4. 框架与工具
- 能用 LangGraph 构建 3+ 节点的状态图
- 能用 FastMCP 创建 MCP Server 暴露工具
- 掌握工具设计 4 原则(命名清晰、目的单一、输入输出结构化、失败快速)
- 知道什么时候用框架、什么时候手写
5. RAG 实战
- 掌握分块策略(500 Token + 15% 重叠为起点)
- 能实现混合检索(BM25 + 向量 + RRF 融合 + CrossEncoder 重排序)
- 理解元数据过滤(租户隔离、时间范围、权限控制)
- 能用 Ragas 评估 RAG 系统(Faithfulness、Answer Relevancy、Context Precision)
6. Agent 记忆
- 理解 5 层记忆架构(工作/情景/语义/程序/偏好)
- 能用 Mem0 实现跨会话记忆(添加/检索/更新/去重)
- 能实现 LangGraph 检查点(持久化对话状态)
- 掌握对话历史压缩策略(固定窗口/滑动摘要/重点提取)
7. 多智能体
- 知道何时该用/不该用多智能体(成本 vs 质量)
- 掌握 6 大编排模式(Chaining/Routing/Parallel/Orchestrator/Evaluator-Optimizer/Swarm)
- 能用 LangGraph 实现 Supervisor 模式
- 理解 A2A 协议的概念和价值
8. 安全与 Guardrails
- 能实现 4 层护栏架构(输入/行为/输出/运行时)
- 能检测 Prompt 注入(模式匹配 + 架构隔离)
- 掌握工具权限控制(READ/WRITE/FORBIDDEN)
- 了解 OWASP Agentic AI Top 10
9. 生产部署
- 能用 FastAPI 构建 Agent API(含健康检查、Trace ID 中间件)
- 能编写生产级 Dockerfile(非 root、HEALTHCHECK、多阶段构建)
- 能实现结构化日志 + Prometheus 指标
- 了解 CI/CD 基本流程
10. 面试准备
- 准备 3 个实战项目
- 能用 STAR 法则讲述项目经历
- 掌握高频考点的回答框架
技能雷达图
能力评分(1-10):
Python 工程 ████████░░ 8/10
LLM 原理 ███████░░░ 7/10
Context Eng ███████░░░ 7/10
框架使用 ████████░░ 8/10
RAG 系统 ████████░░ 8/10
记忆工程 ███████░░░ 7/10
多智能体 ███████░░░ 7/10
安全防护 ███████░░░ 7/10
生产部署 ████████░░ 8/10
成本优化 ██████░░░░ 6/10
推荐项目组合
| 项目 | 展示能力 | 复杂度 | 面试价值 |
|---|---|---|---|
| RAG 聊天机器人 | RAG 全流程 + LLM 调用 + 评估 | ★★ | 基础项目,必须有 |
| MCP 工具 Agent | MCP Server + 工具设计 + LangGraph | ★★★ | 展示 2026 新技术栈 |
| 带记忆的 Agent | 三层记忆 + Mem0 + 历史压缩 | ★★★★ | 展示工程深度 |
| 多智能体系统 | Supervisor 模式 + 编排 + A2A 概念 | ★★★★★ | 展示架构能力 |
| 生产级 Agent 服务 | FastAPI + Docker + 可观测性 | ★★★★★ | 展示生产经验 |
面试高频考点与回答框架
技术考点
| 考点 | 常见问题 | 回答框架 |
|---|---|---|
| Token 管理 | "如何管理长对话上下文?" | ① 固定窗口保留最近 N 轮 ② 早期对话生成摘要 ③ 关键事实提取存入记忆 ④ 总 Token 预算控制 |
| 工具调用 | "如何防止模型调用错误工具?" | ① Schema 严格定义(strict: true) ② Pydantic 二次验证 ③ 工具注册 + 权限控制 ④ 工具描述清晰 |
| RAG | "如何提高检索准确率?" | ① 调优 chunk_size(评估驱动) ② 混合检索(BM25 + 向量) ③ CrossEncoder 重排序 ④ 元数据过滤 ⑤ Ragas 评估闭环 |
| 记忆 | "如何实现跨会话记忆?" | ① Mem0 存储用户偏好/事实 ② 对话中检索相关记忆 ③ 注入系统提示 ④ 对话结束后提取新事实 ⑤ 去重 + 过期机制 |
| 多智能体 | "什么时候该用多智能体?" | ① 先尝试单智能体 + 工具 ② 评估效果是否达标 ③ 不达标再考虑多智能体 ④ 分析成本 vs 质量提升 ROI ⑤ 选择最简编排模式 |
| MCP | "为什么需要 MCP?" | ① Agent-Tool 连接标准化 ② 一次实现,多模型通用 ③ 自动工具发现 ④ 类比 USB 标准 |
| 安全 | "如何防止注入攻击?" | ① 输入层:模式匹配检测 ② 架构层:system/user 严格分离 ③ 输出层:检查是否泄露系统提示 ④ 持续更新检测规则 |
| 成本 | "如何降低 Token 成本?" | ① 模型分级(简单任务小模型) ② 上下文压缩(摘要、截断) ③ 缓存高频查询 ④ 工具描述精简 ⑤ 监控 + 优化 |
工程素养考点
| 考点 | 常见问题 | 回答框架 |
|---|---|---|
| 调试 | "怎么排查偶发错误?" | ① Trace ID 定位请求 ② 查结构化日志 ③ 复现路径 ④ 看 Prometheus 指标(延迟、错误率分布) ⑤ 逐步隔离 |
| 评估 | "如何评估 Agent 的好坏?" | ① 定义测试集(覆盖典型场景) ② 用 Ragas 评估(Faithfulness、Relevancy) ③ 用户反馈收集 ④ A/B 测试对比 |
| 架构 | "如何设计一个可扩展的 Agent 系统?" | ① 分层架构(API/Agent/工具/数据) ② 工具注册 + 权限 ③ 可观测性三件套 ④ 配置外置(环境变量) ⑤ 容器化 |
区分"熟练工"与"工程师"
| 维度 | 熟练工 | 工程师 |
|---|---|---|
| 框架使用 | 会套用框架的 Demo | 能设计自己的架构,理解框架背后的原理 |
| 工具调用 | 知道怎么定义工具 Schema | 知道为什么需要 strict mode、如何设计好的工具描述 |
| 问题排查 | 出了问题不知道怎么办 | 用 Trace ID → 日志 → 指标系统性定位 |
| 代码质量 | 复制粘贴代码 | 封装接口、抽象层、类型安全 |
| 关注范围 | 只关注功能实现 | 关注可观测性、安全、成本、可维护性 |
| 方案选择 | "我用 LangGraph 因为大家都在用" | "我选 LangGraph 因为需要可观测性和可恢复性,如果只需要快速原型我会选 SmolAgents" |
| 成本意识 | 不考虑 Token 消耗 | 每次改动都评估 Token 成本和延迟影响 |
STAR 法则回答模板
模板 1:RAG 系统优化
问题:"请分享一个你在 Agent 开发中遇到的最大挑战。"
S - 背景:
我在开发一个知识库问答 Agent 时,用户反馈模型经常给出不准确的答案,
准确率只有 ~65%。
T - 任务:
我需要定位是检索问题还是模型幻觉,并提升到 85% 以上。
A - 行动:
1. 用 Ragas 评估发现 Context Precision 只有 0.5 —— 检索质量是瓶颈
2. 分析 chunk_size——原来用 1500 Token,包含多个主题,检索噪声大
3. 调整为 500 Token + 75 重叠,引入 BM25 + 向量混合检索
4. 加入 CrossEncoder 重排序,从 Top-10 中选 Top-5
5. 在系统提示中增加"仅基于以下知识回答"的约束
R - 结果:
准确率从 65% 提升到 89%,Ragas Faithfulness 从 0.6 提升到 0.92。
我学到:检索质量是 RAG 的生命线,分块策略必须通过评估来调优,
而不是凭直觉。混合检索 + 重排序是性价比最高的优化。
模板 2:多智能体设计
问题:"你如何设计一个多智能体系统?"
S - 背景:
我需要构建一个技术报告生成系统,要求报告质量高于单 Agent 直接生成。
T - 任务:
设计一个多智能体协作系统,质量提升 20% 以上,成本可控。
A - 行动:
1. 先评估单 Agent 基线质量(70 分)
2. 选择 Supervisor 模式——需要全局控制(研究→撰写→审核)
3. 实现 Researcher(搜索分析)、Writer(撰写)、Verifier(质量检查)
4. Verifier 不通过时回写重写,最多 3 轮
5. 对比单 Agent 和多 Agent 的效果和成本
R - 结果:
报告质量从 70 分提升到 88 分(+25%),但成本增加 6 倍。
结论:Supervisor 模式适合高质量要求场景,简单任务不值得。
我学会了先基线评估,再决定是否引入多智能体。
模板 3:生产部署
问题:"如何将 Agent 系统部署到生产环境?"
S - 背景:
我有一个能本地跑通的 RAG Agent 脚本,需要部署为可服务的 API。
T - 任务:
使其支持并发请求、可监控、可回滚。
A - 行动:
1. 用 FastAPI 包装为 REST 接口,添加请求验证和 Trace ID 中间件
2. 编写生产级 Dockerfile(非 root、HEALTHCHECK、多阶段构建)
3. 配置结构化日志(JSON 格式)和 Prometheus 指标
4. 设置 GitHub Actions CI/CD(测试→构建→部署)
5. 用 docker-compose 编排 API + PostgreSQL + Prometheus + Grafana
R - 结果:
部署后可通过 /health 监控服务状态,通过 Trace ID 追踪单次请求,
通过 Grafana 面板实时查看延迟和错误率。
我学到:生产部署不只是"能跑",而是要可观测、可恢复、可回滚。
工程视角
2026 行业关键数据
| 指标 | 数据 | 来源 |
|---|---|---|
| Agentic AI 项目失败率 | 40% | Gartner 2026 |
| 企业平均 Agent 数量 | 12 个 | Salesforce 报告 |
| Agent 孤岛比例 | ~50% | Salesforce 报告 |
| 生产框架 Top 1 | LangGraph | Alice Labs 排名 |
| 必备协议 | MCP + A2A | 2026 技术栈 |
| RAG 平均准确率 | 78-85% | 行业基准 |
| 多智能体 vs 单智能体 | 质量 +25%,成本 +6x | 实测数据 |
面试准备时间线(8 周计划)
第 1-3 周:Python + LLM + Context Engineering 基础
├─ 每周完成一个实战环节
└─ 产出:手写工具调用 Agent
第 4-6 周:框架 + RAG + 记忆工程
├─ 掌握 LangGraph 状态图、MCP 协议、Mem0
└─ 产出:带记忆的 RAG Agent
第 7-8 周:多智能体 + 安全 + 生产部署
├─ Supervisor 模式、4 层 Guardrails、Docker 部署
└─ 产出:生产级 Agent 服务
第 9-10 周:项目整理 + 模拟面试
├─ 准备 3 个可演示项目 + STAR 法则练习
└─ 产出:面试作品集
面试前自检清单
□ 技术准备
□ 能手写工具调用 Agent(不调框架)
□ 能解释 LangGraph 状态图的构建过程
□ 能说清楚 RAG 的每个环节和优化方法
□ 能解释 MCP 和 A2A 协议的定位和区别
□ 知道 4 层 Guardrails 和 OWASP Top 10
□ 项目准备
□ 至少 3 个可演示的项目
□ 每个项目能用 STAR 法则讲述
□ 能解释每个技术选择的"为什么"
□ 能说出项目的不足和改进方向
□ 工程素养
□ 能解释如何排查偶发错误
□ 能估算 Token 成本
□ 知道如何做 A/B 测试
□ 理解 CI/CD 基本流程
推荐资源
- roadmap.sh AI Agents — 交互式学习路线图
- LangGraph 文档 — 生产级多智能体
- MCP 协议文档 — Agent-Tool 标准
- A2A 协议 — Agent-Agent 互操作
- Mem0 文档 — Agent 记忆层
- PydanticAI 文档 — 类型安全 Agent
- Ragas 文档 — RAG 评估
- OWASP Agentic AI Top 10 — 安全风险
上一阶段:← 生产部署 | 下一阶段:可观测性 →