这个演示稿用于说明一个开发型 Agent 产品应该怎样讲清楚自己的价值。

我不希望它变成“AI 写代码很快”的表演,而是把重点放在工程流程:任务输入、上下文读取、变更执行、验证反馈,以及最后如何把结果交还给人。

演示节奏.

前半段展示一个小型变更如何被拆开;后半段展示浏览器检查、测试结果和最终说明如何构成可信交付。

用数字和对比讲清流程.

抽象地说“工程化”没有说服力,所以这一段我用一次真实的小改动作为标尺,把四个阶段的体量摆出来。

6

改动文件

含 2 个测试

14

读取上下文

文件 + 终端 + 浏览器

9

跑过的检查

lint 与单测各半

一次中等改动的体量画像

体量之外,更值得看的是时间花在哪里。把四个阶段的耗时并排比一下,就会发现真正费时的从来不是“写代码”,而是读上下文和验证。

任务输入6人写
上下文读取22↑ 最重
变更执行11
验证反馈18跑测试

· 单次任务各阶段耗时(中位数)

不是每个任务都该走同一条流。按风险和可验证性分一下类,就知道哪些能放手、哪些必须人盯着。

高风险 · 高可验证有测试兜底,放手改,验证收尾。
高风险 · 低可验证先补可观测性,别急着动。
低风险 · 高可验证自动化首选,批量交给 Agent。
低风险 · 低可验证文档与重命名,人快速过目即可。
任务分类:风险 × 可验证性

分类之后是选模型——任务的难度决定该配哪一档,而不是一律用最贵的。

模型定价截至 2026-06
模型输入缓存命中输出上下文
codex-mini低风险批量2.00.58.0256K
codex-std日常改动9.02.236.0512K
codex-pro跨文件重构22.05.588.01M

¥ / 百万 token · 按任务难度配模型

模型在迭代,这条流也在迭代,下面是它走到今天的几个节点。

  1. 2026-02只读上下文先看懂再说
  2. 2026-04可回放证据链终端 + 浏览器入流
  3. 2026-06验证式交付当前

流程能力的演进

一句话收住这一段。

整条流串起来,就是把一个任务一路推到一个可验证的变更。

任务可验证变更
任务 → 变更:一条可验证的开发流