跳到主要内容

2026 年了,人类工程师到底该做什么

AI 拿走代码之后,人类工程师的价值不在"写得快",而在"想得清"。但想得清不是一句口号——它意味着一套全新的能力体系、协作方式和评价体系。


一、代码变便宜了,但问题没消失

2026 年初,Anthropic 发布了一份《Agentic Coding 趋势报告》。其中有一组数据很扎眼:工程师在约 60% 的工作中使用了 AI,但能"完全委托"给 AI 的任务只有 0-20%。

也就是说,AI 确实帮了大忙,但人类并没有因此闲下来。相反,大部分人的感受是:编码快了,但决策没快;产出多了,但判断没少。

这和我在上一篇"深水区"文章里提到的剪刀差是一致的——AI 产出速度越快,审查者越跟不上。只不过那篇文章讲的是流程,这篇要讲的是人。

问题就来了:当编码成本趋近于零,人类工程师的核心价值到底是什么?

答案不是一句"做架构师"就能打发的。因为"架构"这个词太宽了——它可能是技术选型,可能是系统设计,可能是需求理解,可能是团队协调。而真正值钱的那部分,往往不是写文档、画架构图,而是那些 AI 做不了、也学不会的事。


二、什么叫做"编排者"

2026 年最流行的说法是:工程师从"编码者"变成了"编排者"。但"编排"到底意味着什么具体动作?

如果把 AI Agent 比作一个执行力极强但理解力有限的新员工,编排者要做的事大致可以分成四类:

第一类:定义问题。 这是最值钱的部分。大部分时候,问题不是"怎么实现",而是"到底要实现什么"。需求文档里的一句话,背后可能是业务目标、技术约束、用户体验、合规要求的交织。AI 可以在"怎么实现"上做到极致,但"实现什么"仍然需要人类来定义。而且这不是写一句需求就够了——你需要拆解到 AI 能理解的粒度,同时保留足够的灵活性让它在实现层面自主决策。

第二类:设定边界。 这不是写一堆规则文档,而是在编码开始前就把约束结构化为可验证的清单。哪些是硬卡点绝对不能碰,哪些是软卡点尽量遵守,哪些是建议可以商量。更重要的是,这些约束需要在编码过程中被自动检查——不是靠人眼看,是靠机器守。这听起来像工程管理,但在 AI 时代,它是核心能力。因为 AI 不会"凭经验知道"哪些规则不能碰——你必须明说。

第三类:判断质量。 代码产出成本下降之后,审查变成了瓶颈。以前一个 PR 花 20 分钟写、10 分钟审,现在 2 分钟写、10 分钟审。审查时间占比从 33% 飙升到 83%。所以编排者需要把审查从"泛泛看"变成"聚焦看"——机器守硬卡点,人看软约束;机器查范围,人判方向。同时还需要建立一套质量判断的直觉:AI 生成的代码看起来没问题,但跑起来对不对?能扛住真实流量吗?出了事好排查吗?

第四类:兜底责任。 这是最容易被忽略、但也最重要的一点。当 AI 写错了代码导致线上故障,谁承担责任?不是 AI,是人类工程师。所以无论 AI 多靠谱,最终兜底的是人。这意味着编排者不能只是"approve 按钮"——你必须理解 AI 做了什么,为什么这么做,出了问题怎么修。这种理解不是读一遍代码就够的,而是需要系统性地把控:架构是否合理、边界是否清晰、异常是否覆盖、回滚是否可行。


三、真正的稀缺资源

当代码便宜了之后,什么东西变得更贵了?

第一是判断力。 不是判断"这段代码写得好不好"——那是 code review 的活。而是判断"这个方向对不对"。AI 可以在任何方向上快速产出,但方向本身需要人类来选。这需要的不是编程能力,而是业务理解、技术直觉、风险预判。

第二是注意力。 在 AI 时代,人的注意力是唯一的不可扩展资源。一个工程师一天能深度审查的 PR 数量是有限的,能同时编排的 Agent 任务是有上限的。所以编排者的核心能力变成了"把注意力用在刀刃上"——哪些环节必须亲自看,哪些可以交给自动化,哪些可以信任 AI 的判断。

第三是信任关系。 这是最隐形但也最关键的部分。当团队里的工程师开始依赖 AI 产出代码,信任就从一个"人与人"的问题变成了"人与 AI 与 人"的问题。你信任这个 Agent 的编码质量吗?你信任那个工具的检索结果吗?你信任这套护栏的检测能力吗?这些信任不是一天建立起来的,而是通过一次次的产出-审查-反馈循环慢慢积累。而建立信任的过程本身,就是人类工程师最不可替代的价值。


四、新人的路怎么走

这是 2026 年最焦虑的问题之一:如果 day 1 AI 已经在写代码了,新人该怎么成长?

传统的成长路径很清楚:写简单代码 → 写复杂代码 → 设计系统 → 定战略。这是一条能力逐渐升级的阶梯。但在 AI 时代,第一级阶梯被踩掉了——新人不再需要从零开始写简单代码,因为 AI 写得更快更好。

那新人从哪里起步?

我认为有三条可能的路径:

第一条:从审查开始。 不让新人写代码,让新人审 AI 的代码。一开始审的是简单的功能,慢慢过渡到复杂的逻辑。通过"看-理解-判断-反馈"的循环,培养技术直觉。这条路径的优势是新人一开始接触的就是完整的生产代码,而不是练习项目。风险是如果审查标准不够清晰,新人可能变成"approve 按钮"而没有真正学到东西。

第二条:从定义问题开始。 让新人先学会写需求、拆任务、定约束,然后再让 AI 实现。这条路径训练的是"想得清"的能力——把模糊的业务需求转化为精确的技术规格。这是编排者的核心能力,越早训练越好。

第三条:从调试开始。 不写新代码,而是修 bug。AI 生成的代码出了问题,新人需要理解代码、定位问题、修复验证。这条路径的优势是训练"理解他人代码"的能力——这恰好是传统编程教育中最薄弱的环节。

这三条路径不是互斥的,可以组合使用。关键是:新人需要一个新的成长阶梯,而不是旧的阶梯被砍掉一级。


五、"蒸馏焦虑"怎么解

有一个词叫"蒸馏焦虑"。员工每写一份 SOP、每教 AI 一个流程,都是在把知识导出到组织资产里。当员工意识到"我说的越多被替代得越快",关键知识就开始藏匿。

这不是一个技术问题,是一个激励问题。

解法有三个方向:

第一个:重新定义"蒸馏"的价值。 写 SOP 不是把自己教没,是把自己从执行者变成架构师。当你把一个流程教给 AI 之后,你就不需要再做这件事了——你的时间释放出来去做更值钱的事。这个转换需要组织层面的配合:不能让员工"蒸馏"完之后发现"你的工作被 AI 替代了,所以你需要离职"。那样的话没有人会配合。

第二个:共享 AI 红利。 是用 AI 来扩展组织边界、做以前做不了的事,还是用它来收缩团队?这两条路给员工的信号完全相反。前者让员工觉得"AI 是我的工具",后者让员工觉得"AI 是我的替代者"。

第三个:评价体系跟着变。 口头说"判断比执行值钱"但 KPI 还是产出量,员工不会信。评价体系需要真实反映编排者的价值:问题定义质量、约束完备性、审查有效性、系统稳定性——而不是"写了多少行代码"。


六、三种工作,三种治理

还有一个容易被忽略的维度:AI Native 不等于全透明加全自动化。创新需要三个条件——持续注意力、愿意显得愚蠢、反共识。这三个条件在全透明的环境下都很难存在。

所以组织治理需要区分三种工作:

执行类工作:全透明加自动化没问题。需求明确、标准清晰、重复性高——这种工作 AI 做得又快又好,人类只需要定义验收标准。

优化类工作:需要结构化但要留批判空间。性能调优、架构改进、流程优化——这种工作需要 AI 提供数据和分析,但判断需要人类来做。治理方式是半透明:过程和结果可见,但允许批判性思考的空间。

创新类工作:需要保护性环境。新技术探索、新业务模式、新架构实验——这种工作需要半私密、不强制广播、允许试错。用同一种治理方式管三类工作,结果是执行高效加创新死亡。


结语

2026 年,人类工程师不会被 AI 替代——但会被"会用 AI 的人类工程师"替代。

这不是一个威胁,是一个机会。因为"会用 AI"不是指会用工具写代码,而是指会做那些 AI 做不了的事:定义问题、设定边界、判断质量、兜底责任。

这些不是 AI 时代的新能力,是软件工程一直需要但之前被代码产出掩盖了的基本功。当代码便宜了之后,这些基本功的价值才真正显现出来。

所以人类工程师该做什么?做 AI 做不了的事。做那些需要业务理解、技术直觉、风险预判、信任建立的事。做那些出了事需要兜底的事。做那些需要判断力而非执行力的事。

代码是 AI 的事了。但问题是什么、边界在哪里、做得好不好、出了事谁负责——这些还是人类的事。

而且会一直是。

Agent Harness Cluster:跨越 Virtuoso 门槛的架构

单 Agent + 单 Harness 是物理极限。要解决 Virtuoso 级别的问题,需要多个不同领域的专家团协作寻优。


三条 Scaling Law

过去两年 AI 的发展可以归结为三条 Scaling Law:

  1. 数据/参数 Scaling(系统一):加大模型、加数据。这条曲线已经进入收益递减区
  2. 推理 Scaling(系统二):加大推理深度,Chain-of-Thought、Tree-of-Thought。仍在快速演进但天花板可见
  3. Agent Scaling(自学习环境):这是当前和未来 2-3 年的核心增长引擎

为什么 Agent Scaling 是核心? 因为前两条 Scaling Law 是在"提升单个模型的能力",而 Agent Scaling 是在"构建一个能持续自我学习的环境"。单模型的天花板是硬的,自学习环境的天花板远得多。


为什么卡在 Expert → Virtuoso

现实中的 Agent 表现:

  • Novice → Apprentice:解决简单任务没问题(写个脚本、查个 API)
  • Apprentice → Expert:在特定领域能胜任(部署 vLLM 集群、搭建 RAG 系统)
  • Expert → Virtuoso卡在这里了

为什么?因为 Virtuoso 级别的问题需要跨领域协作

  • 设计一个生产级推理系统,需要懂 GPU 架构、网络拓扑、调度算法、可观测性
  • 搭建一个多智能体应用,需要懂 Agent 设计模式、记忆管理、安全治理、成本控制

单 Agent + 单 Harness 是物理极限。 一个 Agent 无法同时是 GPU 专家、网络专家、调度专家、安全专家。


Agent Harness Cluster 三层架构

Layer 1:Agent Harness Scale-Out

解决"如何让多个 Agent 协作"的问题。三个子问题:

Agent 拓扑优化:GPTSwarm、MASS、AgentNet、DyLAN 等研究在探索不同的 Agent 连接方式——是全连接?星型?还是动态路由?拓扑结构直接影响信息流动效率和决策质量。

Agent 调度优化:AIOS、MegaAgent、Quine 等在解决"什么时候派哪个 Agent 上场"——不是所有任务都需要所有 Agent 参与,调度决定了资源利用率和响应速度。

Agent 动态生成:AOrchestra、TDAG、EvoAgent、AutoAgents 在解决"遇到新问题时自动创建新 Agent"——不需要预先定义所有 Agent,系统能按需生成。

Multi-Agent Scaling:多个 Agent 协作 + Memory & Skill Scaling + Meta-Harness 调度。

Layer 2:Data Scale-Out

数据从原始的数仓层 → 语义层 → 本体层(Ontology)。

  • 数仓层:结构化数据,Agent 可以查询
  • 语义层:业务含义的抽象,Agent 可以理解和推理
  • 本体层:跨领域的概念关联,Agent 可以进行跨领域迁移学习

这一步的关键是让数据从"可查询"变成"可推理"

Layer 3:Agent Harness Runtime

  • 生命周期管理:Agent 的创建、暂停、恢复、销毁
  • 资源调度:计算资源、GPU 资源、内存的动态分配
  • 可观测性:每个 Agent 的决策链路、工具调用、上下文变更的全链路追踪
  • 安全治理:权限控制、沙箱隔离、审计日志

对 FDE 的实战意义

如果你是一个 FDE,怎么应用 Agent Harness Cluster?

场景:生产级推理系统部署

传统方式:一个人或一个小团队,从头搭建。需要懂太多东西,容易遗漏关键决策。

Agent Harness Cluster 方式:

─────────────────────────────────────────────┐
│ Meta-Harness │
│ 目标:部署 70B 模型生产级推理服务 │
│ 约束:延迟<50ms, 可用性>99.9%, 成本<X/月 │
└─────────────────┬───────────────────────────

┌─────────────┼─────────────┐
│ │ │
┌───▼───┐ ┌────▼──── ┌────▼────┐
│GPU │ │网络 │ │调度 │
│架构师 │ │拓扑专家 │ │优化专家 │
└───┬───┘ └────┬────┘ └────────┘
│ │ │
└─────────────┼─────────────┘

┌───────▼───────┐
│ Reviewer │
│ 一致性校验 │
└───────────────┘

每个 Agent 专注自己的领域,Meta-Harness 负责协调和一致性校验。

关键收益

  1. 质量提升:每个领域都有专家负责,不会遗漏关键点
  2. 速度提升:并行探索多个方案,而不是串行试错
  3. 可复用性:每个 Agent 的 Skill 可以复用到其他项目
  4. 可观测性:每个决策都可以追溯,出了问题知道哪个环节有问题

现在的成熟度

坦诚地说,Agent Harness Cluster 还在早期阶段。开源工具有 GPTSwarm、AutoGen、LangGraph 的 Multi-Agent 模式,但距离生产级还有一段路。

最接近可用的方案:LangGraph 的 Supervisor + Handoff 模式。虽然不是完整的 Cluster 架构,但已经能解决大部分跨领域协作的问题。

这也正是我们的 LangGraph 实战教程覆盖到的——从单 Agent 到多 Agent 协作,是 LangGraph 学习的第六阶段。


总结

Agent Harness Cluster 不是"多加几个 Agent",而是一套完整的架构范式

  • 从"单模型"到"多模型协作"
  • 从"人工调度"到"自动拓扑优化"
  • 从"一次性任务"到"持续自学习"

跨过 Expert → Virtuoso 这道门槛,靠的不是更大的模型,而是更好的架构。

AI Native 组织新基建:OpenSpec + Harness + Memory

AI 不是来"加速"传统工作流的,而是来重构它的。Yoho.AI 给出了一个具体答案:用 OpenSpec 规范意图、用 Harness 约束执行、用 Memory 沉淀知识。


问题:为什么 AI 加速了开发,却没有重构组织?

大多数公司用 AI 的方式是这样的:

  • 工程师用 Cursor/Claude Code 写代码 → 快了 2-3 倍
  • PM 还是写传统 PRD → 没变
  • 设计师还是出 Figma → 没变
  • QA 还是写测试用例 → 没变
  • 管理层还是看人力排期 → 没变

结果是什么?每个环节都快了,但整体流程没变。 组织还是那个组织,只是每个人手里多了一个 AI 工具。

这就像在马车时代给每匹马装了电动马达——马跑得更快了,但你还是在马车上。

Yoho.AI 做的事情是换车


新基建三件套

1. OpenSpec — 意图规范

传统方式:产品读 PRD,人写设计文档,设计师出原型,开发估工时。每个环节都有大量信息损耗。

Yoho.AI 方式:AI 自动结构化需求,生成 OpenSpec 规范文档。

OpenSpec 不是一份文档,而是一个可执行的意图契约

  • 用户意图被 AI 解析为结构化需求(谁、在什么场景、要达成什么目标、成功标准是什么)
  • 自动生成验收标准(Acceptance Criteria),每个标准都是可测试的
  • 生成技术方案骨架,标注出不确定性和需要人工确认的部分

核心差异:从"人写文档 → 人读文档"变成"AI 结构化 → 人工确认 → 自动执行"。

2. Harness — 约束执行

传统方式:AI 补全代码片段,人负责组装、编译、测试、部署。

Yoho.AI 方式:Harness 约束下,AI 自主完成编译 → 安装 → 验证全流程。

Harness 的核心理念是定义硬性不变量,在范围内给 AI 完全自由。具体做法是 C3 不变量守卫系统:

  • guard-compile-required:改代码必须编译通过,不能只写不管跑不跑得通
  • guard-gate-check:进入下一阶段必须满足前置条件,不允许跳步
  • guard-path-boundary:AI 只能访问声明的工作空间,不能越界
  • guard-stop:未完成必要阶段不许停止,防止"做了一半就跑"
  • guard-evolution:Harness 自我修改每次会话上限 2 次,防止无限漂移

关键洞察:不是给 AI 加更多的"审批节点"(那是 workflow),而是定义不变量(invariants)。不变量守卫的是底线,不变量之内 AI 可以自由发挥。这是 Harness 和 Workflow 的本质区别。

3. Memory — 知识沉淀

传统方式:知识散落在飞书文档、代码注释、Slack 聊天记录里。新员工入职靠"问人"。

Yoho.AI 方式:所有决策过程、失败经验、成功模式自动沉淀为结构化记忆。

  • 每次会话的决策链路自动记录(为什么选 A 不选 B)
  • 失败的尝试和修复过程成为知识库(下次不再踩同样的坑)
  • 成功模式固化为 Skill(可复用的解决方案模板)

组织升级:四个角色的 AI Native 化

角色传统模式AI Native 模式
产品写 PRD,人脑转化需求用自然语言描述意图,OpenSpec 自动结构化
设计手工出 Figma 原型AI 根据 OpenSpec 生成初稿,人工调整
开发写代码 + 修 Bug定义 Harness 不变量,AI 自主执行
测试手工写测试用例AI 根据验收标准自动生成,持续验证

关键变化:从"人做执行、AI 做辅助"变成"人做决策、AI 做执行"。


为什么大多数公司做不到?

三个障碍:

  1. 惯性思维:PM 不愿意放下写 PRD 的习惯,工程师不愿意放下自己写代码的控制感
  2. 信任问题:让 AI 自主执行全流程,需要极大的信任。信任建立在 Harness 的可靠性上
  3. 短期 ROI 诱惑:用 AI 加速现有流程,短期收益立竿见影。重构组织,短期看不到收益

Yoho.AI 的做法是渐进式替代:先用 AI 加速每个环节(让大家尝到甜头),然后逐步引入 OpenSpec/Harness/Memory(让 AI 接管更多),最终完成组织升级。


对 FDE 的启示

作为 AI 前沿部署工程师,你在 AI Native 组织中扮演的角色是什么?

  1. Harness 架构师:定义不变量系统,设计安全边界。这是 FDE 的核心能力——把概率模型放进确定系统
  2. Memory 工程师:设计知识沉淀系统,让组织的经验成为 AI 可理解的结构化数据
  3. 基础设施提供者:搭建支持 AI Native 工作流的技术栈(计算资源、模型路由、可观测性)

一句话总结:AI Native 组织不是"每个人多用 AI",而是"组织的工作方式从以人为中心变成以 AI 为中心"。

AI 编程进入深水区:工程师需要补的工程课

AI Coding 的终局不是 "AI 取代人写代码",而是 "人做架构师,AI 做执行者"。但要走到这一步,需要补的工程课比想象中多。


前言

过去半年,AI Coding 工具的普及速度超出了很多人的预期。编码环节的效率提升是肉眼可见的——一个工程师上午 10 点上线一个新功能、中午做 A/B 测试、下午根据数据下线、5 点上线更好的版本。这是过去需要六周才能完成的迭代,现在一天就走完了。

但与此同时,大量团队卡在了一个共同的瓶颈上:编码快了,交付却没快多少。

这篇文章不讲工具怎么用——那些已经有很多人在写了。我想讲的是:工具用好之后,工程体系需要补什么课。


一、省下来的时间去哪了

编码效率提升 10 倍是不少团队的实际数据。但端到端交付效率往往只有 2 到 3 倍。省下来的时间去哪了?

被审查、对齐、返工吃掉了。

这里有一个容易被忽略的剪刀差:AI 产出速度越快,审查者越跟不上。很多人以为等模型再聪明一点就好了,但方向反了——这不是模型问题,是流程问题。模型越聪明,这个剪刀差越会加剧。更反讽的是,有些团队的测试阶段反而因为 "AI 写得太快、人需要花更多时间理解和确认产物" 而耗时增加了。

比剪刀差更深层的问题是:过去二十年的研发基础设施是给人用的。

一份不完整的需求、一段没注释的代码、一个不一致的 API 接口——这些缺陷之所以系统能正常运转,是因为人在用自己的灵活性、推理能力和经验悄悄把缺口补上。开个会问一下、走过去问老王、凭经验猜一下、跑去预发环境试一下。这些动作发生得太自然,自然到我们不再把它看作 "工作"。

但它们是工作。它们是人扛在肩上的隐性成本。

当 AI 进入流程之后,这些成本就会暴露,而且回不去。你没法假装不知道系统的问题。就像你没法看完 X 光片假装骨头没问题一样。

所以最大的风险不在代码质量——代码错误反而容易发现和修复。真正致命的是约束没说清。需求模糊、上下文丢失、验收标准缺失,AI 会在这些空白处用训练数据的 "通用模式" 来填充,写出来的代码能跑,但跑的方向完全不对。


二、约束前置:把默契变成规则

在传统开发里,很多东西靠人和人之间的默契补齐。一句话、一个点头就够了。但在 AI Coding 里,凡是你没有明说的部分,Agent 大概率会自行合理化。

AI 最危险的不是 "不知道",是 "以为自己知道"。它给出的答案看起来合理,但实际上是用训练数据里的普遍模式填充出来的,不一定符合你的业务场景、工程规范和线上要求。

所以第一课就是:在 AI 动手之前,先把约束说清楚。

具体来说,需求阶段需要多问几个问题。这个功能要解决的根因是什么——去掉它能达成同样目标吗?如果并发量翻十倍、数据量翻一百倍,系统行为会怎样?这里的 "正常处理" 具体指什么,在不同角色看来含义相同吗?攻击者会怎么利用这个功能,运维怎么排查异常?

这些问题看起来像是在找茬,但其实是在强制暴露盲区。这个过程不能交给 AI 自己做——追问必须是交互式的,人必须参与。这是整个约束体系里唯一不能自动化的环节。

到了技术方案阶段,约束需要变成结构化的清单。每条约束应该包含几个要素:具体的描述、约束等级(哪些是硬卡点不能碰、哪些是软卡点尽量遵守、哪些是建议)、怎么验证、在哪个阶段验证、预期结果是什么。

但很多人走到这一步就停下了,觉得写了个清单就完事了。这里有个常见的误区:把 "约束" 等同于 "文档"。约束的核心标准只有一个——能否被机械化地验证。如果不能,就是无效约束。文档写得再漂亮,审查时没人逐条核对,等于没写。

还有一个更细的层次:任务拆解时的约束绑定。不是把整个约束清单丢给 AI,而是为每个编码任务精确匹配相关的约束子集。AI 在写 T3 任务时只需要关注 T3 相关的约束,而不是面对一堆不相关的规则。


三、流程编排:让 AI 按流程走

AI 编码最危险的不是 "写错",是 "写偏了"——边写边自由发挥,最后和初衷对不上。

所以需要把流程拆成几个职责分离的阶段,每个阶段强制 AI 切换角色。

第一步是只读不写。让 AI 先读代码库,做架构考古、Git 热点分析、依赖追踪,但不允许写代码。这步的核心是 "先看再想",而不是 "看了就写"。

第二步是想不做。不写代码,先想清楚有哪些方案可选,对比优缺点。这步很多人会跳过,觉得 "我想好了直接写就行",但跳过探索的代价往往是写到一半发现方向错了。

第三步是把方案变成可执行的规范文档,包含设计、任务拆解、验收标准。想法到规范的转换,是把模糊的 "我觉得应该这样" 变成精确的 "你需要做这三件事,验收标准是这四个条件"。

第四步才是按规范实施。TDD,反模式检测,严格按规范逐任务落地。

第五步是规范对齐验证——不是泛泛看代码,是逐条核对约束清单是否被遵守。

第六步是安全审查——攻击面、数据流、依赖漏洞扫描。

这套流程的核心价值是职责分离:侦察只读不写,探索只想不做,提案只定方向不写代码。每个阶段切换角色,避免在一个 session 里角色混乱。

但流程不等于仪式。对于熟悉的项目,侦察可以跳过;对于简单需求,探索可以合并到提案。流程的价值在于可裁剪,不在于完整性。我见过不少团队把六步当成必须全跑的 checklist,结果效率反而更差了。

还有一个容易被忽视的环节:编码过程中发现方案需要调整,不是重新跑一遍流程,而是把变更反向同步到方案文档,保持方案和代码一致。没有这一步,流程和实际代码很快会脱节。


四、验收:从希望遵守到验证遵守

传统代码审查有个问题叫 "泛泛看"——reviewer 可能只看了逻辑对不对,没注意到关键约束是否被遵守。产出速度远超审核速度的时候,这套机制就失效了。

所以需要从 "人眼看" 变成 "机器查"。

在技术方案到编码的入口处设一道关:硬卡点为零、约束完备才允许进入编码。在代码审查到发布的入口设第二道关:硬卡点风险为零、约束覆盖率达到要求才允许提交。在发布到线上的入口设第三道关:影响范围可控、风险评级不超过中等才允许上线。

最容易做砸的是变更规模的自适应。一刀切全量检查会扼杀效率,一刀切全部快速通过会扼杀质量。正确做法是多维度判断:代码行数、涉及的资金或状态或安全、变更的文件数、历史 bug 率——综合判断走哪条通道。这不是流程问题,是算法问题。

同时还需要检测一些 AI 特有的缺陷:代码里调用的 API 在项目依赖中是否真的存在(幻觉 API)、实现范围是否超出了任务定义(过度实现)、当前任务绑定的约束是否都被覆盖了(约束遗忘)、代码和设计方案的偏差是否超过阈值(偏差放大)。

这些检查不是要替代人的审查,而是帮人的审查聚焦到真正需要判断的地方。硬卡点机器来守,建议项人来看。


五、上下文管理:不是越多越好

很多人以为上下文窗口越来越大,问题就解决了。方向反了——窗口越大,AI 越容易迷失重点。

类比操作系统:虚拟内存不是因为物理内存不够才发明的,是因为 "全量加载" 本身就是错的架构选择。上下文窗口也一样——按需加载、分级压缩、不可换出页,这些是架构问题,不是资源问题。

具体来说,上下文应该分三级。第一级是必须传的、不可压缩的:约束清单、硬卡点规则、资金安全规则。第二级是重要的、可以摘要压缩的:技术方案核心章节、代码变更摘要。第三级是参考性的、按需注入的:知识库、历史变更记录。

随着对话推进,上下文会不断增长,需要做三阶段压缩:先结构化提取保留语义骨架,再摘要压缩保留核心结论和数据,紧急情况下截断第三级、进一步精简第二级。但有一个原则——约束清单在任何阶段都不可压缩,它是硬红线。

和上下文管理相关的一个问题是知识防腐烂。

知识库不更新,三个月就废。但防腐烂最难的不在技术,在激励。一个可行的做法是把知识更新和代码变更绑定:PR 改了某个模块,自动触发关联知识的更新提醒,不处理不能合并。把防腐烂从自觉行为变成流程硬约束。

具体可以做三件事:PR 关联复核——修改的文件路径若在某条知识的绑定路径里,评审阶段强制确认知识是否需要更新;定时巡检——定期扫描长尾知识,生成腐烂候选清单;AI 起草加人审签——大部分更新由 Agent 起草,owner 确认,边际成本压到最低。


六、人和组织

写到这里,技术问题基本讲完了。但还有一个更大的问题不能回避:人怎么办。

有一个词叫 "蒸馏焦虑"。员工每写一份 SOP、每教 AI 一个流程,都是在把知识导出到组织资产里。当员工意识到 "我说的越多被替代得越快",关键知识开始藏匿——而 AI 友好化恰恰需要员工说出哪些隐性约定需要被结构化。

还有一个叫 "培养断裂"。旧路径很清楚:day 1 写简单代码,几年后写复杂代码,然后设计系统,最后定战略。新路径里这条线断了——day 1 AI 已经在写代码,那 day 1 的人到底应该做什么?

这两个问题叠加起来,会形成一个负反馈环:入门级岗位消失导致资深工程师断层,资深工程师因为蒸馏焦虑藏匿知识导致转型无法推进,评价系统不匹配导致员工没有动力参与转型。

最诚实的做法是承认没有完美方案。但有几个方向能避免最坏的情况发生。

第一,明确 AI 红利的分享方式。是用它来扩展组织边界、做以前做不了的事,还是用它来收缩团队?这两条路给员工的信号完全相反。

第二,把 "蒸馏" 重新定义。写 SOP 不是把自己教没,是把自己从执行者变成架构师。

第三,评价系统必须真实跟着变。口头说 "判断比执行值钱" 但 KPI 还是产出量,员工不会信。

还有一个容易被忽略的维度:AI Native 不等于全透明加全自动化。创新需要三个条件——持续注意力、愿意显得愚蠢、反共识。这三个条件在全透明的环境下都很难存在。

所以组织治理需要区分三种工作:执行类工作全透明加自动化没问题;优化类工作需要结构化但要留批判空间;创新类工作需要保护性环境——半私密、不强制广播、允许试错。用同一种治理方式管三类工作,结果是执行高效加创新死亡。


结语

AI Coding 的终局不是 "AI 取代人写代码",而是 "人做架构师,AI 做执行者"。

但要走到这一步,需要补的工程课比想象中多。约束前置、流程编排、验收闭环、上下文管理——这些不是 AI 时代的新发明,是软件工程本该有、但之前被人兜底兜掉了的基本功。

AI 把这些基本功显式化了。不是 AI 要求你这么做,是 AI 让你没法再糊弄了。

Claude Code 内部机制:从日志蒸馏出来的 6 个发现

通过完整记录一次 Claude Code 任务的 LLM 日志,我们看到了它告诉模型有哪些工具、如何处理上下文压缩、如何并行执行工具、以及如何保证多指令的 JSON 完整性。


背景

Claude Code 是一个黑盒产品。你输入指令,它输出代码——中间发生了什么?通过分析一次完整任务执行过程中 Claude Code 与 LLM 之间的完整交互日志,我们蒸馏出了 6 个关键机制。


发现 1:多指令分割与 JSON 完整性保证

当用户同时发出多个指令时(比如"先创建项目结构,再写配置文件,最后跑测试"),Claude Code 需要确保每个指令都被正确执行,且不会因为 JSON 格式不完整而中断。

机制

  • 指令被分割为独立的任务单元,每个单元有明确的开始和结束标记
  • 在执行过程中,Claude Code 维护一个 JSON 缓冲区,只有确认当前单元的 JSON 完整后才提交
  • 如果 JSON 不完整(模型输出被截断),Claude Code 会发起补全请求,而不是直接失败

启示:AI 编程工具的可靠性很大程度上取决于输出完整性校验。模型本身是不可靠的(可能截断、可能格式错误),工具层必须做校验和补全。


发现 2:上下文压缩与任务连贯性

随着任务执行,上下文会越来越长。Claude Code 怎么处理?

机制

  • 不是简单截断,而是语义压缩——保留关键决策点、删除冗余的中间推理步骤
  • 压缩时保持任务的"连贯性"——即使删除了某些中间步骤,模型仍然知道"现在进行到哪一步"
  • 使用一种类似"摘要 + 锚点"的策略:用摘要概括已完成的工作,用锚点标记当前进度

启示:上下文管理不是"删旧留新",而是"保留决策链路"。好的上下文管理让模型不会"失忆"。


发现 3:工具列表的动态呈现

Claude Code 不会把所有可用工具一次性灌给模型。

机制

  • 根据当前任务阶段,动态选择哪些工具对模型可见
  • 比如写代码阶段,文件操作工具优先级高;部署阶段,Shell 命令工具优先级高
  • 工具描述中包含使用约束(比如"这个工具只能读,不能写"),减少误用

启示:不是给模型"所有能力",而是给模型"当前需要的能力"。能力过多反而增加混淆和错误率。


发现 4:System Prompt 的层次结构

Claude Code 的 System Prompt 不是一个大段落,而是分层的:

  • 身份层:你是谁(编程助手)、你的目标是什么
  • 规则层:你必须遵守的规则(比如"先思考再行动"、"不确定的事情问用户")
  • 工具层:你能调用哪些工具、每个工具的契约
  • 格式层:你的输出必须是什么格式(JSON schema 等)

启示:System Prompt 的层次化设计让模型更容易理解自己的角色边界。这也是为什么 CLAUDE.md 能生效——它补充了规则层的内容。


发现 5:流式输出中的并行工具调用

在用户看到流式输出的同时,Claude Code 在后台并行执行多个工具调用。

机制

  • 模型输出一个"计划"(接下来要做 A、B、C),Claude Code 解析计划
  • 如果 A、B、C 之间没有依赖关系,并行执行
  • 流式输出给用户的是"正在做什么"的进度,而不是等待所有工具执行完才输出

启示:流式输出的核心价值不是"让用户看到 token 逐字出现",而是让用户知道系统正在工作,同时后台最大化并行度。


发现 6:压缩后的任务连贯性

这是发现 2 的补充。上下文压缩后,Claude Code 如何确保模型不"迷路"?

机制

  • 每次压缩时生成一个"进度快照"——当前状态、已完成项、待办项、阻塞项
  • 这个快照作为新的上下文的"锚点",模型以此为起点继续推理
  • 快照中包含关键的决策理由(为什么选了 A 方案),防止模型在后续执行中做出矛盾的决策

启示决策理由的保留比决策结果更重要。模型可能忘记"做了什么",但只要记得"为什么这么做",就能保持一致性。


对 FDE 的启示

如果你要自己搭建一个类似 Claude Code 的系统,这 6 个发现直接对应了你需要解决的技术问题:

发现对应技术问题
JSON 完整性输出校验与补全机制
上下文压缩语义摘要 + 进度快照
动态工具列表工具路由与权限管理
System Prompt 分层规则引擎设计
并行工具调用任务依赖图解析与调度
压缩后连贯性决策理由持久化

这些问题不是"大模型"的问题,而是工程系统的问题。这也正是 FDE 岗位的核心价值——把概率模型变成可靠的工程系统。


总结

Claude Code 看起来"智能"的背后,是一层又一层的工程机制在支撑。模型提供了"理解"和"生成"的能力,但可靠性、效率、用户体验,全靠工具层的工程实现。

这 6 个发现告诉我们:AI 编程工具的竞争力不在于"用了多大的模型",而在于工程机制的设计质量