Agentic Coding 之后：AI 如何走进物理世界

2026年6月3日

代码写完了只是开始。物理世界的挑战才是真正的试金石。

前言

2026 年初，飞猪 CTO 线在一场 ATA 分享中抛出了一个判断：AI 已经解决了信息搜索和代码的问题，PMF 已经找到了。但我们认为，更大的机会在于物理世界的真实消费和生活。

这个判断听起来有些激进。但它背后有一组非常扎眼的数据：OpenAI 的周活是 Anthropic 的 30 倍，但 Anthropic 的年收入（600 亿美金）是 OpenAI（250 亿美金）的 2.4 倍。为什么？因为 Anthropic 的用户在做 coding——每次对话消耗 300K 到 1.5M tokens，而普通聊天只有 25-40K tokens。

Agentic Coding 不仅仅是一个工具升级，它是一个商业模式的颠覆者。而它指向的下一个方向——物理世界的真实消费——比 coding 更大，也更难。

一、Agentic Coding 为什么是通向 AGI 的第一道光

唐杰教授在 2026 年 AGI-Next 前沿峰会上提出了一个精练的三维框架来描述 AI 技术演进的阶段性：

第一条：数据/参数 Scaling（系统一）。 大规模语料加 Transformer 参数堆叠，逼近模式匹配的上限。这是 2020-2024 的主旋律，现在已经进入收益递减区。

第二条：推理 Scaling（系统二）。 通过强化学习、思维链、Test-Time Compute 让模型"想得更深"。这是 2024-2025 的焦点——DeepSeek-R1、o1/o3 系列——仍在快速演进，但可预见天花板。

第三条：自学习环境 Scaling（Agent Scaling）。 让模型与外部世界持续交互、从环境反馈中自我进化。这条路指向的正是 Agent Scaling Law，是当下和未来 2-3 年的核心增长引擎。

杨植麟在 GTC 2026 上用 Kimi K2.5 的实践将第三条路线具象化为三个工程维度的"共振"：Token 效率、长上下文、以及智能体集群。三个维度的乘积效应，构成了 Agent Scaling 的技术注解。

这三条 Scaling Law 是递进关系。第一条已进入收益递减区；第二条仍在快速演进但可预见天花板；第三条——Agent Scaling Law——是当下真正的增长引擎。

而 Agentic Coding 恰好是第三条路线的第一块试验田。代码世界天然适合 Agent：环境确定（编译器告诉你行不行）、反馈即时（测试跑不跑得通）、试错成本低（改完再跑就是了）。一旦 Agent 在代码世界验证了"自主执行 + 环境反馈 + 自我进化"这条链路，它就具备了走向更广阔物理世界的资格。

二、物理世界的问题有多难

但物理世界比代码世界难得多。

Coding 和数学问题的特点是：Hard to solve，但 Easy to verify。你写一个哈希排序，对不对一眼就能看出来。而且它是一次性的、静态的——答案和 setup 永远不变。

物理世界消费问题的特点是：同样 Hard to solve，但更头疼的是 Hard to verify。我出两个去巴黎七天的行程规划，或者美加墨看世界杯十天的行程，让两个模型各出一个方案——一眼很难看出谁好谁坏。

还有高度时效性。今天搜酒店和明天搜，库存、价格完全不同，天气、打车能不能打到，都是不可控因素。这对 RL training 来说会引入大量噪声。

还有主观性。我推荐两个景点，我推荐两台扫地机器人，每个人的评判角度都不一样。

这就是用 Coding 方法解决真实物理世界消费问题时面临的核心挑战：你不仅需要解决"怎么做"，还需要解决"怎么判断做得好不好"。

飞猪团队在实践中发现了三个架构创新：

Least Squares 模型合并。 现在很多 expert 模型相对于基座的权重更新彼此几乎是 disjoint 的——它们学到了不同的东西。基于这个观察，可以用一种更便宜的合并方式——用激活值信息做加权的最小二乘合并——把多个 expert 的能力拼起来，效果和昂贵的 OPD 蒸馏很接近。

用大模型取代小模型的 Quick Instruction。 以前用户 query 进来，先用小模型做意图识别、实体抽取、分流……维护一堆小模型。新的思路是：直接在 user prompt 后面加上语义 token，one-shot 给出意图、领域、是否需要搜索等信息，大模型一次推理全部搞定。对旅行电商来说，用户的画像和实时行为数据本来就很长，如果有 10 个小模型，Context prefill 10 次，可能 1 秒都出不来。

三层 KV Cache。 同一个 session 内，前两层保持不变，第三层实时更新。这对旅行购物场景的个性化非常关键。

三、Trip-Bench：把真实世界变成可训练的 simulator

面对物理世界"hard to verify"的难题，飞猪团队给出的解法是 Trip-Bench——一个 Agentic-RL Pipeline for Physical-World Tasks。

Trip-Bench 的核心思路是：把真实 Agent 的历史轨迹"冻结"为离线世界，让 Agent 自博弈来自动撰写评分器，再把这个评分器直接用作 RL 奖励函数。

从真实的线上轨迹出发，把工具调用的输出冻结成一个离线 SQLite 数据库。用 Agent 自博弈来自动写评分器（rubric），让 RL 有一个确定性的、可复现的奖励信号。把物理世界"hard-to-verify"的问题，转化成了程序可执行的 coding 问题。

但 Trip-Bench 目前还是局部的——数据来自单次 API 调用的快照，reward 信号仍然偏稀疏。下一步是 Shopping-Bench，目标是一个可以无限自我对弈的 world simulator：集成全部消费级 API（旅行、购物、地图、娱乐），让模型在更接近真实世界的环境里学习。

Trip-Bench 最有趣的设计是 Agent self-play writes the grader——三个 Agent 自己跟自己玩：一个出题、一个解题、一个是老师，这样循环。当它达到一定的均衡——环境基本固化了，数据基本固化了，评判标准基本固化了——就认为这是最优的。

这个思路的精妙之处在于：它用博弈论的思想解决了"怎么评判一个旅行规划好不好"这个主观问题。不是人写 rubric，而是 Agent 在自博弈中自然涌现出评判标准。这和"铁律"文章中讨论的确定性 vs 概率性问题一脉相承——Trip-Bench 的本质是把物理世界的概率性问题，转化为 coding 的确定性问题。

四、从单域 Expert 到跨域 Virtuoso——Agent Harness Cluster

Agent Scaling Law 的真正目标是什么？是提升 Agent 集体的智力等级——从单域 Expert 到跨域 Virtuoso。

Google DeepMind 的 Levels of AGI 框架定义了 AI 系统的智力分级。当前前沿系统（Claude Code、Cursor、Devin 等）在代码、写作、数据分析等结构化领域已经到达 Level 3（Expert）——达到第 90 百分位人类专家的水平。但从 Expert 到 Virtuoso（第 99 百分位）的跃迁，面临一个根本性的困难：

Virtuoso 级别的决策，不是单个专家能独立完成的，而是需要多个不同领域专家团的协作寻优。这恰恰是单 Agent 加单 Harness 架构的物理极限。

Agent Harness Cluster 的技术体系包含三个核心层：

Layer 1：Agent Harness Scale-Out。 能力横向扩展层，包含 Multi-Agent Scaling（拓扑优化、调度优化、Agent 动态生成）、Memory & Skill Scaling（经验积累、技能组合、生命周期治理）、Meta-Harness Scaling（架构搜索、工作流自动生成）。

Layer 2：Data Scale-Out。 数据横向扩展层，数仓层到语义层到本体层。Agent 的智力不仅取决于模型能力，还取决于它能获取和理解的数据质量。

Layer 3：Agent Harness Runtime。 运行时支撑层，包含 Agent 生命周期管理、资源调度与隔离、可观测性与安全治理。

Agent 数量的爆发是必然趋势。原因有三：context 隔离需要 Agent 分裂（按 context 边界切，不按问题类型切）；多视角决策寻优需要 Agent 扩增（多个 Agent 独立推理后综合，决策质量显著优于单 Agent 深度思考）；专精避免 tool 过载（单 Agent 持有超过 15 个工具时，调用正确率显著下降）。

五、组织升级——AI Native 新基建与三层治理

技术层面的升级，最终要落到组织层面。

Yoho.AI 是阿里内部的一个 AI Native 基础设施项目，覆盖需求分析到设计到编码到验证到归档的全链路。它不是又一个 AI IDE 插件，而是一套完整的 AI Native 工作流。

Yoho.AI 的设计哲学是 Harness，而非 Workflow。传统的 AI 编码工具采用 Workflow 思路——固定 A 到 B 到 C 的步骤。但在复杂业务场景中，这种"流水线上的螺丝钉"思路太脆弱了。Yoho 采用 Harness 模型：定义硬性不变量（改了代码就必须编译、编译不过不许安装），在不变量范围内，AI 有完全的战术决策自由。通过 Hook 系统实时感知 AI 行为，违规时硬性拦截。这就像赛车比赛——不规定你怎么开，但必须在赛道里。

C3 不变量守卫系统（Compile-Commit-Check）是这套哲学的具体实现：改源码必须编译通过、进入下一阶段必须满足前置条件、AI 只能访问声明的工作空间、未完成必要阶段不许停止。这些守卫不是"建议"，是"法律"。

在产品、设计、开发、测试四个角色全面面向 AI Native 升级的过程中，每种角色的核心产出都在发生变化：产品从需求文档变成 Agent 自然语言到结构化 Spec 的自动转换；设计从设计稿变成设计稿到代码的 Skill 链路；开发从写代码变成约束环境下的 AI 自主编码；测试从手动验证变成自动化加 AI 标定失败分类。

一个有趣的信号是：已经有公司开始为 AI Agent 卖保险了。AGT-Lab 的行业调研显示，Mount Insure 推出了面向 AI Agent 的保险产品。当有人开始为 Agent 的行为卖保险时，说明这个生态正在从"实验玩具"走向"商业责任"——可靠性已经是可定价的商品。

结语

Agentic Coding 不仅仅是"让 AI 写代码"。它是 Agent Scaling Law 的第一块试验田，是通向物理世界真实应用的第一道桥。

Token Multiplier 的经济学证明了这条路走得通——coding 的 token 消耗是聊天的 10 倍到 50 倍，商业价值也是 10 倍量级。Trip-Bench 的 simulator 方法证明了物理世界的"hard to verify"可以被转化为 coding 的"easy to verify"。Harness Cluster 证明了从单域 Expert 到跨域 Virtuoso 的路径不是更好的单 Agent，而是多个专精 Agent 的协作寻优。

代码写完了只是开始。物理世界的挑战——hard to verify、高度时效性、强主观性——才是真正的试金石。

而那个在 Trip-Bench 中自博弈涌现评判标准的 Agent，那个在 Harness Cluster 中协作寻优的 Expert 团队，那个在 Yoho.AI 中被不变量约束的自主执行者——它们正在证明一件事：AI 走进物理世界，不是模型变得更聪明，而是系统变得更可靠。

前言​

一、Agentic Coding 为什么是通向 AGI 的第一道光​

二、物理世界的问题有多难​

三、Trip-Bench：把真实世界变成可训练的 simulator​

四、从单域 Expert 到跨域 Virtuoso——Agent Harness Cluster​

五、组织升级——AI Native 新基建与三层治理​

结语​

前言

一、Agentic Coding 为什么是通向 AGI 的第一道光

二、物理世界的问题有多难

三、Trip-Bench：把真实世界变成可训练的 simulator

四、从单域 Expert 到跨域 Virtuoso——Agent Harness Cluster

五、组织升级——AI Native 新基建与三层治理

结语