不要把动作当成进展

Agent 狂欢结束，ROI 清算开始了 · 2026-06-22

Anthropic 的 Claude Code 工程一号位 Fiona Fung 说了一句话，可能比她整个播客采访里的任何观点都重要：

"不要把 motion 当成 progress。" ——不要把工具使用量误认为真实进展。

这句话不是在说"AI 不好用。"她在说一件更尖锐的事：业界已经用 Token 消耗量替代了生产力衡量——而这两者正在脱离。 Anthropic 工程师的代码交付量同比增长 8 倍——但瓶颈从"写代码"转移到了验证、质量、优先级判断。生成的代码多了 8 倍。能用的代码——没有多 8 倍。

同一天，财富管理公司开始用 AI 放弃大众富裕客户——不是帮他们服务更多人，是识别"谁不值得服务。"同一天，Horizon 上有一个人在问："我的旧工作是否只因欺诈而存在？"——AI 揭露的不是效率问题，是存在意义的问题。

三条信号同一个方向：Agent 的免费试用期结束了。现在是 ROI 清算时间。

一、Token maxing 时代的终结

Token maxing 是一个行业默认假设。它的逻辑很简单——Agent 用得越多，产出越高。衡量 Agent 成功与否的指标 = Token 消耗量。工程师月度 Token 预算。企业年度 AI 支出。国家 AI 算力中心总投入。

但这个逻辑链正在断裂。

Uber 是最早发现的——设了每工程师每工具 $1,500/月的上限，因为四个月就花光了全年预算。他们发现 Token 消耗和代码产出之间的相关性在衰减——不是因为 Agent 不好。是因为 Agent 被用来处理越来越多不适合 Agent 的任务。

Fiona Fung 把这个现象用工程语言描述了出来：代码生成不是瓶颈了。瓶颈是验证。是"怎么确认这些东西是对的、是高质量的。"当"生成"变成无限供应——"判断"就变成了稀缺资源。但判断不在 Agent 身上。判断在人身上。而人的判断能力没有同比提升 8 倍。瓶颈转移了。

这不是 Token 的问题。这是人机协作中的瓶颈从"生产速度"转移到"验证带宽"——而这个转移会彻底改变 Agent 的定价逻辑。如果 Agent 每生成 100 行代码，人需要花 10 分钟验证——Agent 的 Token 消耗再便宜也没用。验证带宽是固定的。Agent 生成的越多，积压的待验证内容越多。量没有用。质才有用。

这就是 ROI 思维取代 Token maxing 的理论基础。不是 Agent 不划算——是"更多 Agent"可能意味着"更高的验证成本"和"更低的边际产出。"

二、放弃客户——AI 的筛选逻辑比替代逻辑更残酷

财富管理公司用 AI 放弃大众富裕客户（Horizon #48）——这个信号的重要性被低估了。

"AI 替代工作"是一个熟悉的叙事框架——机器做人做的事。这个叙事暗含一个前提：被替代的工作量是固定的，AI 只是换了一个执行者。但这里发生的不是"AI 替代理财顾问"——是"AI 告诉公司哪些客户不值得被服务。"被淘汰的不是顾问——是客户。AI 不是在执行已有的任务——是在重新定义"什么是值得做的任务。"

这是一个根本性区别。

自动化 = 同样的任务，更高效的执行者。AI 优化 = 重新定义任务本身的边界——包括"不值得保留的客户。"

如果你的工作恰好是服务那些被 AI 判定为"不值得保留的客户"——你不是被 AI 替代了。你是和你的客户一起被 AI 从商业逻辑里删除了。这不是"AI 抢了你的工作"——是"AI 让你的工作所在的那一层商业逻辑消失了。"

医疗领域已经在平行发生同样的事。AI 诊断系统在基层医疗机构开始分流——哪些患者值得专家看，哪些不值得。大学招生系统用 AI 预筛——哪些申请者值得招生官读，哪些不值得。这不是"AI 替代了招生官"——是"AI 缩小了'值得被看'的人群范围。"

这些例子的共同点是：AI 不是在替代人——是在重新定义"谁值得被服务"和"什么事值得被做。" 而被排除在外的人——客户、患者、申请者——没有投诉对象。不是一个人拒绝了他们。是一个模型说"不值得。"

三、"我的旧工作只因欺诈而存在吗？"

Horizon #32 的标题是：「我的旧工作只因欺诈而存在吗？」

这个提问不是 AI 恐慌。它比恐慌更安静，更根本。AI 揭露了一个不是由 AI 制造的问题：很多工作本身没有产生任何价值——无论是人做还是 AI 做。

WeWork 的社区经理——当共享办公的估值逻辑崩溃后，那个岗位本身还存在吗？加密货币公司的"社群运营"——当牛市结束、代币归零，那份工作到底在生产什么？网红经纪人的"品牌合作经理"——当品牌削减营销预算后发现销量没变，那些合作到底带来了什么？

这些工作不是被 AI 替代了。它们的存在前提——某种估值逻辑、某种市场热度、某种泡沫叙事——本身被质疑了。AI 没有替代这些工作。AI 只是让"这些工作本来就没有存在的理由"变得可见了。

这和 Agent 的 ROI 清算是一体两面。一面是"Agent 花了很多 Token 但产出没有同比提升"——这是对 Agent 投资回报率的质疑。另一面是"很多工作本身就不值得做——不管谁做，AI 还是人"——这是对工作存在价值的质疑。两个方向同时推进，交汇在同一个点："什么值得做"这个判断本身，正在被重新校准。

四、文化的重量

Fiona Fung 的采访里有一个容易被跳过的段落。她不是被问到"AI 时代的团队管理"——她自己提出了这个问题。

"最让我睡不着的，大概是我们如何保持 Claude Code 和 Cowork 团队的文化。文化不是贴在墙上的海报，它是一个活的东西，会随着时间变化。"

一个管着 Anthropic 最核心工程团队的人，她的最大焦虑不是产品、不是竞争、不是 Token 成本——是文化。这不是因为她不在乎产品和竞争。是因为她看到了一个更深层的问题：当 Agent 接手了大量执行工作后，"团队"本身的性质在改变。

一个人 + Agent 的产出 = 过去 8 个人的产出。这是生产力的飞跃。但也意味着：原来 8 个人之间的协作、争论、互相检查——被压缩成了一个人的内部判断。"代码写错了"过去是被同事在 code review 里发现的。现在是 Agent 自己跑验证。验证规则是谁写的？是那个人自己写的。如果他的验证规则本身有盲区——Agent 会忠实地执行盲区，然后大规模地、高速地复制错误。

协作关系被压缩了。但组织学习——从错误中学习、从冲突中学习——恰恰是依赖协作关系的。当 Agent 把协作压缩成"一个人 + 一台机器"，组织学习的速度可能不是在加速——是在减速。因为你失去的不是效率。你失去的是"别人指出你盲区"的机会。

Fiona 对文化的焦虑就是这个。Agent 可以复制代码。Agent 不能复制文化——因为文化是在摩擦中生成的。在争论中。在犯错中。在做 code review 时指出对方代码太复杂的那一刻。当 Agent 消除了这些摩擦——它同时消除了文化生产的原料。

五、ROI 清算的三个阶段

Agent 的 ROI 清算不会是一次性事件。它会分三个阶段推进。

第一阶段（当前）——Token 审计。 Uber 的 $1,500 上限、Fiona 的"不要只看使用量"、企业内部开始算"Agent 花了多少钱 vs. 产生了多少可验证的产出。"这一阶段的结论不会是"AI 没用"——会是"AI 在某些场景下 ROI 极高，在其他场景下在烧钱。"

第二阶段（6-12 个月后）——任务审计。 不是看 Agent 花了多少 Token，是看 Agent 被派去做什么任务。哪些任务 Agent 做了但没有改变任何结果？哪些任务人和 Agent 同时在做——谁做得更好？哪些任务根本没有存在的必要——不管是人做还是 Agent 做？这个阶段会比第一阶段更痛苦。因为第一阶段砍的是"过度使用"，第二阶段砍的是"这个活本身就没价值。"

第三阶段（12-24 个月后）——组织审计。 当一个团队从 10 人变成 3 人 + Agent 后，剩下的 3 个人在做什么？他们的工作性质变化了吗？Agent 消除了执行摩擦——有没有也消除了创新的摩擦？团队的学习速度——从失败中、从争论中——有没有因为"人和人之间的碰撞减少"而下降？这个阶段最隐蔽——因为它不是在审计成本或任务，是在审计"效率提升的隐性代价。"

结尾：Agent 没有死——但它的青春期结束了

Fiona Fung 的话不应该被读成"AI 寒冬"的信号。Anthropic 自己的工程师代码交付量同比增长 8 倍——这不是退步。

但 8 倍的增长不等于 8 倍的进步。进步需要 Agent 做对的事，不只是做更多的事。区分"动作"和"进展"——区分 motion 和 progress——不是在批评 Agent。是在给 Agent 的青春期画上句号。

青春期可以试。可以烧 Token。可以说"你看我多能跑"而不用证明跑的方向是对的。

成年期是 ROI 清算。是"哪些 Agent 行为产生了真实结果，哪些只是 Token 燃烧的噪音。"是"哪些工作在 Agent 加速后被证明本来就不需要存在。"是"当一个团队从 8 人变成 1 人 + Agent 后，剩下的人如何保持学习、纠错、在彼此的盲区里发现真相。"

Agent 没有死。但免费的试错期结束了。从现在开始——每一个 Token 都要为自己辩护。

来源：Lenny's Podcast (Fiona Fung 采访) / Horizon 每日速递 / InfoQ / 财富管理行业报道