Blog | FDE 学习中心

2026 年了，人类工程师到底该做什么

2026年6月3日

AI 拿走代码之后，人类工程师的价值不在"写得快"，而在"想得清"。但想得清不是一句口号——它意味着一套全新的能力体系、协作方式和评价体系。

一、代码变便宜了，但问题没消失

2026 年初，Anthropic 发布了一份《Agentic Coding 趋势报告》。其中有一组数据很扎眼：工程师在约 60% 的工作中使用了 AI，但能"完全委托"给 AI 的任务只有 0-20%。

也就是说，AI 确实帮了大忙，但人类并没有因此闲下来。相反，大部分人的感受是：编码快了，但决策没快；产出多了，但判断没少。

这和我在上一篇"深水区"文章里提到的剪刀差是一致的——AI 产出速度越快，审查者越跟不上。只不过那篇文章讲的是流程，这篇要讲的是人。

问题就来了：当编码成本趋近于零，人类工程师的核心价值到底是什么？

答案不是一句"做架构师"就能打发的。因为"架构"这个词太宽了——它可能是技术选型，可能是系统设计，可能是需求理解，可能是团队协调。而真正值钱的那部分，往往不是写文档、画架构图，而是那些 AI 做不了、也学不会的事。

二、什么叫做"编排者"

2026 年最流行的说法是：工程师从"编码者"变成了"编排者"。但"编排"到底意味着什么具体动作？

如果把 AI Agent 比作一个执行力极强但理解力有限的新员工，编排者要做的事大致可以分成四类：

第一类：定义问题。 这是最值钱的部分。大部分时候，问题不是"怎么实现"，而是"到底要实现什么"。需求文档里的一句话，背后可能是业务目标、技术约束、用户体验、合规要求的交织。AI 可以在"怎么实现"上做到极致，但"实现什么"仍然需要人类来定义。而且这不是写一句需求就够了——你需要拆解到 AI 能理解的粒度，同时保留足够的灵活性让它在实现层面自主决策。

第二类：设定边界。 这不是写一堆规则文档，而是在编码开始前就把约束结构化为可验证的清单。哪些是硬卡点绝对不能碰，哪些是软卡点尽量遵守，哪些是建议可以商量。更重要的是，这些约束需要在编码过程中被自动检查——不是靠人眼看，是靠机器守。这听起来像工程管理，但在 AI 时代，它是核心能力。因为 AI 不会"凭经验知道"哪些规则不能碰——你必须明说。

第三类：判断质量。 代码产出成本下降之后，审查变成了瓶颈。以前一个 PR 花 20 分钟写、10 分钟审，现在 2 分钟写、10 分钟审。审查时间占比从 33% 飙升到 83%。所以编排者需要把审查从"泛泛看"变成"聚焦看"——机器守硬卡点，人看软约束；机器查范围，人判方向。同时还需要建立一套质量判断的直觉：AI 生成的代码看起来没问题，但跑起来对不对？能扛住真实流量吗？出了事好排查吗？

第四类：兜底责任。 这是最容易被忽略、但也最重要的一点。当 AI 写错了代码导致线上故障，谁承担责任？不是 AI，是人类工程师。所以无论 AI 多靠谱，最终兜底的是人。这意味着编排者不能只是"approve 按钮"——你必须理解 AI 做了什么，为什么这么做，出了问题怎么修。这种理解不是读一遍代码就够的，而是需要系统性地把控：架构是否合理、边界是否清晰、异常是否覆盖、回滚是否可行。

三、真正的稀缺资源

当代码便宜了之后，什么东西变得更贵了？

第一是判断力。 不是判断"这段代码写得好不好"——那是 code review 的活。而是判断"这个方向对不对"。AI 可以在任何方向上快速产出，但方向本身需要人类来选。这需要的不是编程能力，而是业务理解、技术直觉、风险预判。

第二是注意力。 在 AI 时代，人的注意力是唯一的不可扩展资源。一个工程师一天能深度审查的 PR 数量是有限的，能同时编排的 Agent 任务是有上限的。所以编排者的核心能力变成了"把注意力用在刀刃上"——哪些环节必须亲自看，哪些可以交给自动化，哪些可以信任 AI 的判断。

第三是信任关系。 这是最隐形但也最关键的部分。当团队里的工程师开始依赖 AI 产出代码，信任就从一个"人与人"的问题变成了"人与 AI 与人"的问题。你信任这个 Agent 的编码质量吗？你信任那个工具的检索结果吗？你信任这套护栏的检测能力吗？这些信任不是一天建立起来的，而是通过一次次的产出-审查-反馈循环慢慢积累。而建立信任的过程本身，就是人类工程师最不可替代的价值。

四、新人的路怎么走

这是 2026 年最焦虑的问题之一：如果 day 1 AI 已经在写代码了，新人该怎么成长？

传统的成长路径很清楚：写简单代码 → 写复杂代码 → 设计系统 → 定战略。这是一条能力逐渐升级的阶梯。但在 AI 时代，第一级阶梯被踩掉了——新人不再需要从零开始写简单代码，因为 AI 写得更快更好。

那新人从哪里起步？

我认为有三条可能的路径：

第一条：从审查开始。 不让新人写代码，让新人审 AI 的代码。一开始审的是简单的功能，慢慢过渡到复杂的逻辑。通过"看-理解-判断-反馈"的循环，培养技术直觉。这条路径的优势是新人一开始接触的就是完整的生产代码，而不是练习项目。风险是如果审查标准不够清晰，新人可能变成"approve 按钮"而没有真正学到东西。

第二条：从定义问题开始。 让新人先学会写需求、拆任务、定约束，然后再让 AI 实现。这条路径训练的是"想得清"的能力——把模糊的业务需求转化为精确的技术规格。这是编排者的核心能力，越早训练越好。

第三条：从调试开始。 不写新代码，而是修 bug。AI 生成的代码出了问题，新人需要理解代码、定位问题、修复验证。这条路径的优势是训练"理解他人代码"的能力——这恰好是传统编程教育中最薄弱的环节。

这三条路径不是互斥的，可以组合使用。关键是：新人需要一个新的成长阶梯，而不是旧的阶梯被砍掉一级。

五、"蒸馏焦虑"怎么解

有一个词叫"蒸馏焦虑"。员工每写一份 SOP、每教 AI 一个流程，都是在把知识导出到组织资产里。当员工意识到"我说的越多被替代得越快"，关键知识就开始藏匿。

这不是一个技术问题，是一个激励问题。

解法有三个方向：

第一个：重新定义"蒸馏"的价值。 写 SOP 不是把自己教没，是把自己从执行者变成架构师。当你把一个流程教给 AI 之后，你就不需要再做这件事了——你的时间释放出来去做更值钱的事。这个转换需要组织层面的配合：不能让员工"蒸馏"完之后发现"你的工作被 AI 替代了，所以你需要离职"。那样的话没有人会配合。

第二个：共享 AI 红利。 是用 AI 来扩展组织边界、做以前做不了的事，还是用它来收缩团队？这两条路给员工的信号完全相反。前者让员工觉得"AI 是我的工具"，后者让员工觉得"AI 是我的替代者"。

第三个：评价体系跟着变。 口头说"判断比执行值钱"但 KPI 还是产出量，员工不会信。评价体系需要真实反映编排者的价值：问题定义质量、约束完备性、审查有效性、系统稳定性——而不是"写了多少行代码"。

六、三种工作，三种治理

还有一个容易被忽略的维度：AI Native 不等于全透明加全自动化。创新需要三个条件——持续注意力、愿意显得愚蠢、反共识。这三个条件在全透明的环境下都很难存在。

所以组织治理需要区分三种工作：

执行类工作：全透明加自动化没问题。需求明确、标准清晰、重复性高——这种工作 AI 做得又快又好，人类只需要定义验收标准。

优化类工作：需要结构化但要留批判空间。性能调优、架构改进、流程优化——这种工作需要 AI 提供数据和分析，但判断需要人类来做。治理方式是半透明：过程和结果可见，但允许批判性思考的空间。

创新类工作：需要保护性环境。新技术探索、新业务模式、新架构实验——这种工作需要半私密、不强制广播、允许试错。用同一种治理方式管三类工作，结果是执行高效加创新死亡。

结语

2026 年，人类工程师不会被 AI 替代——但会被"会用 AI 的人类工程师"替代。

这不是一个威胁，是一个机会。因为"会用 AI"不是指会用工具写代码，而是指会做那些 AI 做不了的事：定义问题、设定边界、判断质量、兜底责任。

这些不是 AI 时代的新能力，是软件工程一直需要但之前被代码产出掩盖了的基本功。当代码便宜了之后，这些基本功的价值才真正显现出来。

所以人类工程师该做什么？做 AI 做不了的事。做那些需要业务理解、技术直觉、风险预判、信任建立的事。做那些出了事需要兜底的事。做那些需要判断力而非执行力的事。

代码是 AI 的事了。但问题是什么、边界在哪里、做得好不好、出了事谁负责——这些还是人类的事。

而且会一直是。

Agent Harness Cluster：跨越 Virtuoso 门槛的架构

2026年6月3日

单 Agent + 单 Harness 是物理极限。要解决 Virtuoso 级别的问题，需要多个不同领域的专家团协作寻优。

三条 Scaling Law

过去两年 AI 的发展可以归结为三条 Scaling Law：

数据/参数 Scaling（系统一）：加大模型、加数据。这条曲线已经进入收益递减区
推理 Scaling（系统二）：加大推理深度，Chain-of-Thought、Tree-of-Thought。仍在快速演进但天花板可见
Agent Scaling（自学习环境）：这是当前和未来 2-3 年的核心增长引擎

为什么 Agent Scaling 是核心？ 因为前两条 Scaling Law 是在"提升单个模型的能力"，而 Agent Scaling 是在"构建一个能持续自我学习的环境"。单模型的天花板是硬的，自学习环境的天花板远得多。

为什么卡在 Expert → Virtuoso

现实中的 Agent 表现：

Novice → Apprentice：解决简单任务没问题（写个脚本、查个 API）
Apprentice → Expert：在特定领域能胜任（部署 vLLM 集群、搭建 RAG 系统）
Expert → Virtuoso： 卡在这里了

为什么？因为 Virtuoso 级别的问题需要跨领域协作：

设计一个生产级推理系统，需要懂 GPU 架构、网络拓扑、调度算法、可观测性
搭建一个多智能体应用，需要懂 Agent 设计模式、记忆管理、安全治理、成本控制

单 Agent + 单 Harness 是物理极限。 一个 Agent 无法同时是 GPU 专家、网络专家、调度专家、安全专家。

Agent Harness Cluster 三层架构

Layer 1：Agent Harness Scale-Out

解决"如何让多个 Agent 协作"的问题。三个子问题：

Agent 拓扑优化：GPTSwarm、MASS、AgentNet、DyLAN 等研究在探索不同的 Agent 连接方式——是全连接？星型？还是动态路由？拓扑结构直接影响信息流动效率和决策质量。

Agent 调度优化：AIOS、MegaAgent、Quine 等在解决"什么时候派哪个 Agent 上场"——不是所有任务都需要所有 Agent 参与，调度决定了资源利用率和响应速度。

Agent 动态生成：AOrchestra、TDAG、EvoAgent、AutoAgents 在解决"遇到新问题时自动创建新 Agent"——不需要预先定义所有 Agent，系统能按需生成。

Multi-Agent Scaling：多个 Agent 协作 + Memory & Skill Scaling + Meta-Harness 调度。

Layer 2：Data Scale-Out

数据从原始的数仓层 → 语义层 → 本体层（Ontology）。

数仓层：结构化数据，Agent 可以查询
语义层：业务含义的抽象，Agent 可以理解和推理
本体层：跨领域的概念关联，Agent 可以进行跨领域迁移学习

这一步的关键是让数据从"可查询"变成"可推理"。

Layer 3：Agent Harness Runtime

生命周期管理：Agent 的创建、暂停、恢复、销毁
资源调度：计算资源、GPU 资源、内存的动态分配
可观测性：每个 Agent 的决策链路、工具调用、上下文变更的全链路追踪
安全治理：权限控制、沙箱隔离、审计日志

对 FDE 的实战意义

如果你是一个 FDE，怎么应用 Agent Harness Cluster？

场景：生产级推理系统部署

传统方式：一个人或一个小团队，从头搭建。需要懂太多东西，容易遗漏关键决策。

Agent Harness Cluster 方式：

─────────────────────────────────────────────┐
│              Meta-Harness                    │
│   目标：部署 70B 模型生产级推理服务           │
│   约束：延迟<50ms, 可用性>99.9%, 成本<X/月    │
└─────────────────┬───────────────────────────
                  │
    ┌─────────────┼─────────────┐
    │             │             │
┌───▼───┐   ┌────▼────  ┌────▼────┐
│GPU    │   │网络     │  │调度     │
│架构师 │   │拓扑专家 │  │优化专家 │
└───┬───┘   └────┬────┘  └────────┘
    │             │             │
    └─────────────┼─────────────┘
                  │
          ┌───────▼───────┐
          │   Reviewer    │
          │  一致性校验    │
          └───────────────┘

每个 Agent 专注自己的领域，Meta-Harness 负责协调和一致性校验。

关键收益

质量提升：每个领域都有专家负责，不会遗漏关键点
速度提升：并行探索多个方案，而不是串行试错
可复用性：每个 Agent 的 Skill 可以复用到其他项目
可观测性：每个决策都可以追溯，出了问题知道哪个环节有问题

现在的成熟度

坦诚地说，Agent Harness Cluster 还在早期阶段。开源工具有 GPTSwarm、AutoGen、LangGraph 的 Multi-Agent 模式，但距离生产级还有一段路。

最接近可用的方案：LangGraph 的 Supervisor + Handoff 模式。虽然不是完整的 Cluster 架构，但已经能解决大部分跨领域协作的问题。

这也正是我们的 LangGraph 实战教程覆盖到的——从单 Agent 到多 Agent 协作，是 LangGraph 学习的第六阶段。

总结

Agent Harness Cluster 不是"多加几个 Agent"，而是一套完整的架构范式：

从"单模型"到"多模型协作"
从"人工调度"到"自动拓扑优化"
从"一次性任务"到"持续自学习"

跨过 Expert → Virtuoso 这道门槛，靠的不是更大的模型，而是更好的架构。

Agentic Coding 之后：AI 如何走进物理世界

2026年6月3日

代码写完了只是开始。物理世界的挑战才是真正的试金石。

AI 编程的"铁律"：从工具到工作流的工程实践

2026年6月3日

工具用好了，代码还是会乱。纪律不是束缚，是让 AI 从"能干活"变成"干好活"。

AI Native 组织新基建：OpenSpec + Harness + Memory

2026年6月3日

AI 不是来"加速"传统工作流的，而是来重构它的。Yoho.AI 给出了一个具体答案：用 OpenSpec 规范意图、用 Harness 约束执行、用 Memory 沉淀知识。

问题：为什么 AI 加速了开发，却没有重构组织？

大多数公司用 AI 的方式是这样的：

工程师用 Cursor/Claude Code 写代码 → 快了 2-3 倍
PM 还是写传统 PRD → 没变
设计师还是出 Figma → 没变
QA 还是写测试用例 → 没变
管理层还是看人力排期 → 没变

结果是什么？每个环节都快了，但整体流程没变。 组织还是那个组织，只是每个人手里多了一个 AI 工具。

这就像在马车时代给每匹马装了电动马达——马跑得更快了，但你还是在马车上。

Yoho.AI 做的事情是换车。

新基建三件套

1. OpenSpec — 意图规范

传统方式：产品读 PRD，人写设计文档，设计师出原型，开发估工时。每个环节都有大量信息损耗。

Yoho.AI 方式：AI 自动结构化需求，生成 OpenSpec 规范文档。

OpenSpec 不是一份文档，而是一个可执行的意图契约：

用户意图被 AI 解析为结构化需求（谁、在什么场景、要达成什么目标、成功标准是什么）
自动生成验收标准（Acceptance Criteria），每个标准都是可测试的
生成技术方案骨架，标注出不确定性和需要人工确认的部分

核心差异：从"人写文档 → 人读文档"变成"AI 结构化 → 人工确认 → 自动执行"。

2. Harness — 约束执行

传统方式：AI 补全代码片段，人负责组装、编译、测试、部署。

Yoho.AI 方式：Harness 约束下，AI 自主完成编译 → 安装 → 验证全流程。

Harness 的核心理念是定义硬性不变量，在范围内给 AI 完全自由。具体做法是 C3 不变量守卫系统：

guard-compile-required：改代码必须编译通过，不能只写不管跑不跑得通
guard-gate-check：进入下一阶段必须满足前置条件，不允许跳步
guard-path-boundary：AI 只能访问声明的工作空间，不能越界
guard-stop：未完成必要阶段不许停止，防止"做了一半就跑"
guard-evolution：Harness 自我修改每次会话上限 2 次，防止无限漂移

关键洞察：不是给 AI 加更多的"审批节点"（那是 workflow），而是定义不变量（invariants）。不变量守卫的是底线，不变量之内 AI 可以自由发挥。这是 Harness 和 Workflow 的本质区别。

3. Memory — 知识沉淀

传统方式：知识散落在飞书文档、代码注释、Slack 聊天记录里。新员工入职靠"问人"。

Yoho.AI 方式：所有决策过程、失败经验、成功模式自动沉淀为结构化记忆。

每次会话的决策链路自动记录（为什么选 A 不选 B）
失败的尝试和修复过程成为知识库（下次不再踩同样的坑）
成功模式固化为 Skill（可复用的解决方案模板）

组织升级：四个角色的 AI Native 化

角色	传统模式	AI Native 模式
产品	写 PRD，人脑转化需求	用自然语言描述意图，OpenSpec 自动结构化
设计	手工出 Figma 原型	AI 根据 OpenSpec 生成初稿，人工调整
开发	写代码 + 修 Bug	定义 Harness 不变量，AI 自主执行
测试	手工写测试用例	AI 根据验收标准自动生成，持续验证

关键变化：从"人做执行、AI 做辅助"变成"人做决策、AI 做执行"。

为什么大多数公司做不到？

三个障碍：

惯性思维：PM 不愿意放下写 PRD 的习惯，工程师不愿意放下自己写代码的控制感
信任问题：让 AI 自主执行全流程，需要极大的信任。信任建立在 Harness 的可靠性上
短期 ROI 诱惑：用 AI 加速现有流程，短期收益立竿见影。重构组织，短期看不到收益

Yoho.AI 的做法是渐进式替代：先用 AI 加速每个环节（让大家尝到甜头），然后逐步引入 OpenSpec/Harness/Memory（让 AI 接管更多），最终完成组织升级。

对 FDE 的启示

作为 AI 前沿部署工程师，你在 AI Native 组织中扮演的角色是什么？

Harness 架构师：定义不变量系统，设计安全边界。这是 FDE 的核心能力——把概率模型放进确定系统
Memory 工程师：设计知识沉淀系统，让组织的经验成为 AI 可理解的结构化数据
基础设施提供者：搭建支持 AI Native 工作流的技术栈（计算资源、模型路由、可观测性）

一句话总结：AI Native 组织不是"每个人多用 AI"，而是"组织的工作方式从以人为中心变成以 AI 为中心"。

AI 编程进入深水区：工程师需要补的工程课

2026年6月3日

AI Coding 的终局不是 "AI 取代人写代码"，而是 "人做架构师，AI 做执行者"。但要走到这一步，需要补的工程课比想象中多。

前言

过去半年，AI Coding 工具的普及速度超出了很多人的预期。编码环节的效率提升是肉眼可见的——一个工程师上午 10 点上线一个新功能、中午做 A/B 测试、下午根据数据下线、5 点上线更好的版本。这是过去需要六周才能完成的迭代，现在一天就走完了。

但与此同时，大量团队卡在了一个共同的瓶颈上：编码快了，交付却没快多少。

这篇文章不讲工具怎么用——那些已经有很多人在写了。我想讲的是：工具用好之后，工程体系需要补什么课。

一、省下来的时间去哪了

编码效率提升 10 倍是不少团队的实际数据。但端到端交付效率往往只有 2 到 3 倍。省下来的时间去哪了？

被审查、对齐、返工吃掉了。

这里有一个容易被忽略的剪刀差：AI 产出速度越快，审查者越跟不上。很多人以为等模型再聪明一点就好了，但方向反了——这不是模型问题，是流程问题。模型越聪明，这个剪刀差越会加剧。更反讽的是，有些团队的测试阶段反而因为 "AI 写得太快、人需要花更多时间理解和确认产物" 而耗时增加了。

比剪刀差更深层的问题是：过去二十年的研发基础设施是给人用的。

一份不完整的需求、一段没注释的代码、一个不一致的 API 接口——这些缺陷之所以系统能正常运转，是因为人在用自己的灵活性、推理能力和经验悄悄把缺口补上。开个会问一下、走过去问老王、凭经验猜一下、跑去预发环境试一下。这些动作发生得太自然，自然到我们不再把它看作 "工作"。

但它们是工作。它们是人扛在肩上的隐性成本。

当 AI 进入流程之后，这些成本就会暴露，而且回不去。你没法假装不知道系统的问题。就像你没法看完 X 光片假装骨头没问题一样。

所以最大的风险不在代码质量——代码错误反而容易发现和修复。真正致命的是约束没说清。需求模糊、上下文丢失、验收标准缺失，AI 会在这些空白处用训练数据的 "通用模式" 来填充，写出来的代码能跑，但跑的方向完全不对。

二、约束前置：把默契变成规则

在传统开发里，很多东西靠人和人之间的默契补齐。一句话、一个点头就够了。但在 AI Coding 里，凡是你没有明说的部分，Agent 大概率会自行合理化。

AI 最危险的不是 "不知道"，是 "以为自己知道"。它给出的答案看起来合理，但实际上是用训练数据里的普遍模式填充出来的，不一定符合你的业务场景、工程规范和线上要求。

所以第一课就是：在 AI 动手之前，先把约束说清楚。

具体来说，需求阶段需要多问几个问题。这个功能要解决的根因是什么——去掉它能达成同样目标吗？如果并发量翻十倍、数据量翻一百倍，系统行为会怎样？这里的 "正常处理" 具体指什么，在不同角色看来含义相同吗？攻击者会怎么利用这个功能，运维怎么排查异常？

这些问题看起来像是在找茬，但其实是在强制暴露盲区。这个过程不能交给 AI 自己做——追问必须是交互式的，人必须参与。这是整个约束体系里唯一不能自动化的环节。

到了技术方案阶段，约束需要变成结构化的清单。每条约束应该包含几个要素：具体的描述、约束等级（哪些是硬卡点不能碰、哪些是软卡点尽量遵守、哪些是建议）、怎么验证、在哪个阶段验证、预期结果是什么。

但很多人走到这一步就停下了，觉得写了个清单就完事了。这里有个常见的误区：把 "约束" 等同于 "文档"。约束的核心标准只有一个——能否被机械化地验证。如果不能，就是无效约束。文档写得再漂亮，审查时没人逐条核对，等于没写。

还有一个更细的层次：任务拆解时的约束绑定。不是把整个约束清单丢给 AI，而是为每个编码任务精确匹配相关的约束子集。AI 在写 T3 任务时只需要关注 T3 相关的约束，而不是面对一堆不相关的规则。

三、流程编排：让 AI 按流程走

AI 编码最危险的不是 "写错"，是 "写偏了"——边写边自由发挥，最后和初衷对不上。

所以需要把流程拆成几个职责分离的阶段，每个阶段强制 AI 切换角色。

第一步是只读不写。让 AI 先读代码库，做架构考古、Git 热点分析、依赖追踪，但不允许写代码。这步的核心是 "先看再想"，而不是 "看了就写"。

第二步是想不做。不写代码，先想清楚有哪些方案可选，对比优缺点。这步很多人会跳过，觉得 "我想好了直接写就行"，但跳过探索的代价往往是写到一半发现方向错了。

第三步是把方案变成可执行的规范文档，包含设计、任务拆解、验收标准。想法到规范的转换，是把模糊的 "我觉得应该这样" 变成精确的 "你需要做这三件事，验收标准是这四个条件"。

第四步才是按规范实施。TDD，反模式检测，严格按规范逐任务落地。

第五步是规范对齐验证——不是泛泛看代码，是逐条核对约束清单是否被遵守。

第六步是安全审查——攻击面、数据流、依赖漏洞扫描。

这套流程的核心价值是职责分离：侦察只读不写，探索只想不做，提案只定方向不写代码。每个阶段切换角色，避免在一个 session 里角色混乱。

但流程不等于仪式。对于熟悉的项目，侦察可以跳过；对于简单需求，探索可以合并到提案。流程的价值在于可裁剪，不在于完整性。我见过不少团队把六步当成必须全跑的 checklist，结果效率反而更差了。

还有一个容易被忽视的环节：编码过程中发现方案需要调整，不是重新跑一遍流程，而是把变更反向同步到方案文档，保持方案和代码一致。没有这一步，流程和实际代码很快会脱节。

四、验收：从希望遵守到验证遵守

传统代码审查有个问题叫 "泛泛看"——reviewer 可能只看了逻辑对不对，没注意到关键约束是否被遵守。产出速度远超审核速度的时候，这套机制就失效了。

所以需要从 "人眼看" 变成 "机器查"。

在技术方案到编码的入口处设一道关：硬卡点为零、约束完备才允许进入编码。在代码审查到发布的入口设第二道关：硬卡点风险为零、约束覆盖率达到要求才允许提交。在发布到线上的入口设第三道关：影响范围可控、风险评级不超过中等才允许上线。

最容易做砸的是变更规模的自适应。一刀切全量检查会扼杀效率，一刀切全部快速通过会扼杀质量。正确做法是多维度判断：代码行数、涉及的资金或状态或安全、变更的文件数、历史 bug 率——综合判断走哪条通道。这不是流程问题，是算法问题。

同时还需要检测一些 AI 特有的缺陷：代码里调用的 API 在项目依赖中是否真的存在（幻觉 API）、实现范围是否超出了任务定义（过度实现）、当前任务绑定的约束是否都被覆盖了（约束遗忘）、代码和设计方案的偏差是否超过阈值（偏差放大）。

这些检查不是要替代人的审查，而是帮人的审查聚焦到真正需要判断的地方。硬卡点机器来守，建议项人来看。

五、上下文管理：不是越多越好

很多人以为上下文窗口越来越大，问题就解决了。方向反了——窗口越大，AI 越容易迷失重点。

类比操作系统：虚拟内存不是因为物理内存不够才发明的，是因为 "全量加载" 本身就是错的架构选择。上下文窗口也一样——按需加载、分级压缩、不可换出页，这些是架构问题，不是资源问题。

具体来说，上下文应该分三级。第一级是必须传的、不可压缩的：约束清单、硬卡点规则、资金安全规则。第二级是重要的、可以摘要压缩的：技术方案核心章节、代码变更摘要。第三级是参考性的、按需注入的：知识库、历史变更记录。

随着对话推进，上下文会不断增长，需要做三阶段压缩：先结构化提取保留语义骨架，再摘要压缩保留核心结论和数据，紧急情况下截断第三级、进一步精简第二级。但有一个原则——约束清单在任何阶段都不可压缩，它是硬红线。

和上下文管理相关的一个问题是知识防腐烂。

知识库不更新，三个月就废。但防腐烂最难的不在技术，在激励。一个可行的做法是把知识更新和代码变更绑定：PR 改了某个模块，自动触发关联知识的更新提醒，不处理不能合并。把防腐烂从自觉行为变成流程硬约束。

具体可以做三件事：PR 关联复核——修改的文件路径若在某条知识的绑定路径里，评审阶段强制确认知识是否需要更新；定时巡检——定期扫描长尾知识，生成腐烂候选清单；AI 起草加人审签——大部分更新由 Agent 起草，owner 确认，边际成本压到最低。

六、人和组织

写到这里，技术问题基本讲完了。但还有一个更大的问题不能回避：人怎么办。

有一个词叫 "蒸馏焦虑"。员工每写一份 SOP、每教 AI 一个流程，都是在把知识导出到组织资产里。当员工意识到 "我说的越多被替代得越快"，关键知识开始藏匿——而 AI 友好化恰恰需要员工说出哪些隐性约定需要被结构化。

还有一个叫 "培养断裂"。旧路径很清楚：day 1 写简单代码，几年后写复杂代码，然后设计系统，最后定战略。新路径里这条线断了——day 1 AI 已经在写代码，那 day 1 的人到底应该做什么？

这两个问题叠加起来，会形成一个负反馈环：入门级岗位消失导致资深工程师断层，资深工程师因为蒸馏焦虑藏匿知识导致转型无法推进，评价系统不匹配导致员工没有动力参与转型。

最诚实的做法是承认没有完美方案。但有几个方向能避免最坏的情况发生。

第一，明确 AI 红利的分享方式。是用它来扩展组织边界、做以前做不了的事，还是用它来收缩团队？这两条路给员工的信号完全相反。

第二，把 "蒸馏" 重新定义。写 SOP 不是把自己教没，是把自己从执行者变成架构师。

第三，评价系统必须真实跟着变。口头说 "判断比执行值钱" 但 KPI 还是产出量，员工不会信。

所以组织治理需要区分三种工作：执行类工作全透明加自动化没问题；优化类工作需要结构化但要留批判空间；创新类工作需要保护性环境——半私密、不强制广播、允许试错。用同一种治理方式管三类工作，结果是执行高效加创新死亡。

结语

AI Coding 的终局不是 "AI 取代人写代码"，而是 "人做架构师，AI 做执行者"。

但要走到这一步，需要补的工程课比想象中多。约束前置、流程编排、验收闭环、上下文管理——这些不是 AI 时代的新发明，是软件工程本该有、但之前被人兜底兜掉了的基本功。

AI 把这些基本功显式化了。不是 AI 要求你这么做，是 AI 让你没法再糊弄了。

AI 把活干了，人类工程师该做什么？

2026年6月3日

10 天 37 组实验的 Agent 依然需要人类的灵感一击——这不是 Agent 的弱点，是人类价值的证明。

Claude Code 内部机制：从日志蒸馏出来的 6 个发现

2026年6月3日

通过完整记录一次 Claude Code 任务的 LLM 日志，我们看到了它告诉模型有哪些工具、如何处理上下文压缩、如何并行执行工具、以及如何保证多指令的 JSON 完整性。

背景

Claude Code 是一个黑盒产品。你输入指令，它输出代码——中间发生了什么？通过分析一次完整任务执行过程中 Claude Code 与 LLM 之间的完整交互日志，我们蒸馏出了 6 个关键机制。

发现 1：多指令分割与 JSON 完整性保证

当用户同时发出多个指令时（比如"先创建项目结构，再写配置文件，最后跑测试"），Claude Code 需要确保每个指令都被正确执行，且不会因为 JSON 格式不完整而中断。

机制：

指令被分割为独立的任务单元，每个单元有明确的开始和结束标记
在执行过程中，Claude Code 维护一个 JSON 缓冲区，只有确认当前单元的 JSON 完整后才提交
如果 JSON 不完整（模型输出被截断），Claude Code 会发起补全请求，而不是直接失败

启示：AI 编程工具的可靠性很大程度上取决于输出完整性校验。模型本身是不可靠的（可能截断、可能格式错误），工具层必须做校验和补全。

发现 2：上下文压缩与任务连贯性

随着任务执行，上下文会越来越长。Claude Code 怎么处理？

机制：

不是简单截断，而是语义压缩——保留关键决策点、删除冗余的中间推理步骤
压缩时保持任务的"连贯性"——即使删除了某些中间步骤，模型仍然知道"现在进行到哪一步"
使用一种类似"摘要 + 锚点"的策略：用摘要概括已完成的工作，用锚点标记当前进度

启示：上下文管理不是"删旧留新"，而是"保留决策链路"。好的上下文管理让模型不会"失忆"。

发现 3：工具列表的动态呈现

Claude Code 不会把所有可用工具一次性灌给模型。

机制：

根据当前任务阶段，动态选择哪些工具对模型可见
比如写代码阶段，文件操作工具优先级高；部署阶段，Shell 命令工具优先级高
工具描述中包含使用约束（比如"这个工具只能读，不能写"），减少误用

启示：不是给模型"所有能力"，而是给模型"当前需要的能力"。能力过多反而增加混淆和错误率。

发现 4：System Prompt 的层次结构

Claude Code 的 System Prompt 不是一个大段落，而是分层的：

身份层：你是谁（编程助手）、你的目标是什么
规则层：你必须遵守的规则（比如"先思考再行动"、"不确定的事情问用户"）
工具层：你能调用哪些工具、每个工具的契约
格式层：你的输出必须是什么格式（JSON schema 等）

启示：System Prompt 的层次化设计让模型更容易理解自己的角色边界。这也是为什么 CLAUDE.md 能生效——它补充了规则层的内容。

发现 5：流式输出中的并行工具调用

在用户看到流式输出的同时，Claude Code 在后台并行执行多个工具调用。

机制：

模型输出一个"计划"（接下来要做 A、B、C），Claude Code 解析计划
如果 A、B、C 之间没有依赖关系，并行执行
流式输出给用户的是"正在做什么"的进度，而不是等待所有工具执行完才输出

启示：流式输出的核心价值不是"让用户看到 token 逐字出现"，而是让用户知道系统正在工作，同时后台最大化并行度。

发现 6：压缩后的任务连贯性

这是发现 2 的补充。上下文压缩后，Claude Code 如何确保模型不"迷路"？

机制：

每次压缩时生成一个"进度快照"——当前状态、已完成项、待办项、阻塞项
这个快照作为新的上下文的"锚点"，模型以此为起点继续推理
快照中包含关键的决策理由（为什么选了 A 方案），防止模型在后续执行中做出矛盾的决策

启示：决策理由的保留比决策结果更重要。模型可能忘记"做了什么"，但只要记得"为什么这么做"，就能保持一致性。

对 FDE 的启示

如果你要自己搭建一个类似 Claude Code 的系统，这 6 个发现直接对应了你需要解决的技术问题：

发现	对应技术问题
JSON 完整性	输出校验与补全机制
上下文压缩	语义摘要 + 进度快照
动态工具列表	工具路由与权限管理
System Prompt 分层	规则引擎设计
并行工具调用	任务依赖图解析与调度
压缩后连贯性	决策理由持久化

这些问题不是"大模型"的问题，而是工程系统的问题。这也正是 FDE 岗位的核心价值——把概率模型变成可靠的工程系统。

总结

Claude Code 看起来"智能"的背后，是一层又一层的工程机制在支撑。模型提供了"理解"和"生成"的能力，但可靠性、效率、用户体验，全靠工具层的工程实现。

这 6 个发现告诉我们：AI 编程工具的竞争力不在于"用了多大的模型"，而在于工程机制的设计质量。

把概率模型放进生产系统：AI Agent 安全与可靠性指南

2026年6月3日

模型很强，但系统不能只靠模型。安全不是模型的属性，是系统的属性。

一、代码变便宜了，但问题没消失​

二、什么叫做"编排者"​

三、真正的稀缺资源​

四、新人的路怎么走​

五、"蒸馏焦虑"怎么解​

六、三种工作，三种治理​

结语​

三条 Scaling Law​

为什么卡在 Expert → Virtuoso​

Agent Harness Cluster 三层架构​

Layer 1：Agent Harness Scale-Out​

Layer 2：Data Scale-Out​

Layer 3：Agent Harness Runtime​

对 FDE 的实战意义​

场景：生产级推理系统部署​

关键收益​

现在的成熟度​

总结​

问题：为什么 AI 加速了开发，却没有重构组织？​

新基建三件套​

1. OpenSpec — 意图规范​

2. Harness — 约束执行​

3. Memory — 知识沉淀​

组织升级：四个角色的 AI Native 化​

为什么大多数公司做不到？​

对 FDE 的启示​

前言​

一、省下来的时间去哪了​

二、约束前置：把默契变成规则​

三、流程编排：让 AI 按流程走​

四、验收：从希望遵守到验证遵守​

五、上下文管理：不是越多越好​

六、人和组织​

结语​

背景​

发现 1：多指令分割与 JSON 完整性保证​

发现 2：上下文压缩与任务连贯性​

发现 3：工具列表的动态呈现​

发现 4：System Prompt 的层次结构​

发现 5：流式输出中的并行工具调用​

发现 6：压缩后的任务连贯性​

对 FDE 的启示​

总结​

一、代码变便宜了，但问题没消失

二、什么叫做"编排者"

三、真正的稀缺资源

四、新人的路怎么走

五、"蒸馏焦虑"怎么解

六、三种工作，三种治理

结语

三条 Scaling Law

为什么卡在 Expert → Virtuoso

Agent Harness Cluster 三层架构

Layer 1：Agent Harness Scale-Out

Layer 2：Data Scale-Out

Layer 3：Agent Harness Runtime

对 FDE 的实战意义

场景：生产级推理系统部署

关键收益

现在的成熟度

总结

问题：为什么 AI 加速了开发，却没有重构组织？

新基建三件套

1. OpenSpec — 意图规范

2. Harness — 约束执行

3. Memory — 知识沉淀

组织升级：四个角色的 AI Native 化

为什么大多数公司做不到？

对 FDE 的启示

前言

一、省下来的时间去哪了

二、约束前置：把默契变成规则

三、流程编排：让 AI 按流程走

四、验收：从希望遵守到验证遵守

五、上下文管理：不是越多越好

六、人和组织

结语

背景

发现 1：多指令分割与 JSON 完整性保证

发现 2：上下文压缩与任务连贯性

发现 3：工具列表的动态呈现

发现 4：System Prompt 的层次结构

发现 5：流式输出中的并行工具调用

发现 6：压缩后的任务连贯性

对 FDE 的启示

总结