Agent 狂欢结束,ROI 清算开始了 · 2026-06-22
Anthropic 的 Claude Code 工程一号位 Fiona Fung 说了一句话,可能比她整个播客采访里的任何观点都重要:
"不要把 motion 当成 progress。" ——不要把工具使用量误认为真实进展。
这句话不是在说"AI 不好用。"她在说一件更尖锐的事:业界已经用 Token 消耗量替代了生产力衡量——而这两者正在脱离。 Anthropic 工程师的代码交付量同比增长 8 倍——但瓶颈从"写代码"转移到了验证、质量、优先级判断。生成的代码多了 8 倍。能用的代码——没有多 8 倍。
同一天,财富管理公司开始用 AI 放弃大众富裕客户——不是帮他们服务更多人,是识别"谁不值得服务。"同一天,Horizon 上有一个人在问:"我的旧工作是否只因欺诈而存在?"——AI 揭露的不是效率问题,是存在意义的问题。
三条信号同一个方向:Agent 的免费试用期结束了。现在是 ROI 清算时间。
一、Token maxing 时代的终结
Token maxing 是一个行业默认假设。它的逻辑很简单——Agent 用得越多,产出越高。衡量 Agent 成功与否的指标 = Token 消耗量。工程师月度 Token 预算。企业年度 AI 支出。国家 AI 算力中心总投入。
但这个逻辑链正在断裂。
Uber 是最早发现的——设了每工程师每工具 $1,500/月的上限,因为四个月就花光了全年预算。他们发现 Token 消耗和代码产出之间的相关性在衰减——不是因为 Agent 不好。是因为 Agent 被用来处理越来越多不适合 Agent 的任务。
Fiona Fung 把这个现象用工程语言描述了出来:代码生成不是瓶颈了。瓶颈是验证。是"怎么确认这些东西是对的、是高质量的。"当"生成"变成无限供应——"判断"就变成了稀缺资源。但判断不在 Agent 身上。判断在人身上。而人的判断能力没有同比提升 8 倍。瓶颈转移了。
这不是 Token 的问题。这是人机协作中的瓶颈从"生产速度"转移到"验证带宽"——而这个转移会彻底改变 Agent 的定价逻辑。如果 Agent 每生成 100 行代码,人需要花 10 分钟验证——Agent 的 Token 消耗再便宜也没用。验证带宽是固定的。Agent 生成的越多,积压的待验证内容越多。量没有用。质才有用。
这就是 ROI 思维取代 Token maxing 的理论基础。不是 Agent 不划算——是"更多 Agent"可能意味着"更高的验证成本"和"更低的边际产出。"
二、放弃客户——AI 的筛选逻辑比替代逻辑更残酷
财富管理公司用 AI 放弃大众富裕客户(Horizon #48)——这个信号的重要性被低估了。
"AI 替代工作"是一个熟悉的叙事框架——机器做人做的事。这个叙事暗含一个前提:被替代的工作量是固定的,AI 只是换了一个执行者。但这里发生的不是"AI 替代理财顾问"——是"AI 告诉公司哪些客户不值得被服务。"被淘汰的不是顾问——是客户。AI 不是在执行已有的任务——是在重新定义"什么是值得做的任务。"
这是一个根本性区别。
自动化 = 同样的任务,更高效的执行者。AI 优化 = 重新定义任务本身的边界——包括"不值得保留的客户。"
如果你的工作恰好是服务那些被 AI 判定为"不值得保留的客户"——你不是被 AI 替代了。你是和你的客户一起被 AI 从商业逻辑里删除了。这不是"AI 抢了你的工作"——是"AI 让你的工作所在的那一层商业逻辑消失了。"
医疗领域已经在平行发生同样的事。AI 诊断系统在基层医疗机构开始分流——哪些患者值得专家看,哪些不值得。大学招生系统用 AI 预筛——哪些申请者值得招生官读,哪些不值得。这不是"AI 替代了招生官"——是"AI 缩小了'值得被看'的人群范围。"
这些例子的共同点是:AI 不是在替代人——是在重新定义"谁值得被服务"和"什么事值得被做。" 而被排除在外的人——客户、患者、申请者——没有投诉对象。不是一个人拒绝了他们。是一个模型说"不值得。"
三、"我的旧工作只因欺诈而存在吗?"
Horizon #32 的标题是:「我的旧工作只因欺诈而存在吗?」
这个提问不是 AI 恐慌。它比恐慌更安静,更根本。AI 揭露了一个不是由 AI 制造的问题:很多工作本身没有产生任何价值——无论是人做还是 AI 做。
WeWork 的社区经理——当共享办公的估值逻辑崩溃后,那个岗位本身还存在吗?加密货币公司的"社群运营"——当牛市结束、代币归零,那份工作到底在生产什么?网红经纪人的"品牌合作经理"——当品牌削减营销预算后发现销量没变,那些合作到底带来了什么?
这些工作不是被 AI 替代了。它们的存在前提——某种估值逻辑、某种市场热度、某种泡沫叙事——本身被质疑了。AI 没有替代这些工作。AI 只是让"这些工作本来就没有存在的理由"变得可见了。
这和 Agent 的 ROI 清算是一体两面。一面是"Agent 花了很多 Token 但产出没有同比提升"——这是对 Agent 投资回报率的质疑。另一面是"很多工作本身就不值得做——不管谁做,AI 还是人"——这是对工作存在价值的质疑。两个方向同时推进,交汇在同一个点:"什么值得做"这个判断本身,正在被重新校准。
四、文化的重量
Fiona Fung 的采访里有一个容易被跳过的段落。她不是被问到"AI 时代的团队管理"——她自己提出了这个问题。
"最让我睡不着的,大概是我们如何保持 Claude Code 和 Cowork 团队的文化。文化不是贴在墙上的海报,它是一个活的东西,会随着时间变化。"
一个管着 Anthropic 最核心工程团队的人,她的最大焦虑不是产品、不是竞争、不是 Token 成本——是文化。这不是因为她不在乎产品和竞争。是因为她看到了一个更深层的问题:当 Agent 接手了大量执行工作后,"团队"本身的性质在改变。
一个人 + Agent 的产出 = 过去 8 个人的产出。这是生产力的飞跃。但也意味着:原来 8 个人之间的协作、争论、互相检查——被压缩成了一个人的内部判断。"代码写错了"过去是被同事在 code review 里发现的。现在是 Agent 自己跑验证。验证规则是谁写的?是那个人自己写的。如果他的验证规则本身有盲区——Agent 会忠实地执行盲区,然后大规模地、高速地复制错误。
协作关系被压缩了。但组织学习——从错误中学习、从冲突中学习——恰恰是依赖协作关系的。当 Agent 把协作压缩成"一个人 + 一台机器",组织学习的速度可能不是在加速——是在减速。因为你失去的不是效率。你失去的是"别人指出你盲区"的机会。
Fiona 对文化的焦虑就是这个。Agent 可以复制代码。Agent 不能复制文化——因为文化是在摩擦中生成的。在争论中。在犯错中。在做 code review 时指出对方代码太复杂的那一刻。当 Agent 消除了这些摩擦——它同时消除了文化生产的原料。
五、ROI 清算的三个阶段
Agent 的 ROI 清算不会是一次性事件。它会分三个阶段推进。
第一阶段(当前)——Token 审计。 Uber 的 $1,500 上限、Fiona 的"不要只看使用量"、企业内部开始算"Agent 花了多少钱 vs. 产生了多少可验证的产出。"这一阶段的结论不会是"AI 没用"——会是"AI 在某些场景下 ROI 极高,在其他场景下在烧钱。"
第二阶段(6-12 个月后)——任务审计。 不是看 Agent 花了多少 Token,是看 Agent 被派去做什么任务。哪些任务 Agent 做了但没有改变任何结果?哪些任务人和 Agent 同时在做——谁做得更好?哪些任务根本没有存在的必要——不管是人做还是 Agent 做?这个阶段会比第一阶段更痛苦。因为第一阶段砍的是"过度使用",第二阶段砍的是"这个活本身就没价值。"
第三阶段(12-24 个月后)——组织审计。 当一个团队从 10 人变成 3 人 + Agent 后,剩下的 3 个人在做什么?他们的工作性质变化了吗?Agent 消除了执行摩擦——有没有也消除了创新的摩擦?团队的学习速度——从失败中、从争论中——有没有因为"人和人之间的碰撞减少"而下降?这个阶段最隐蔽——因为它不是在审计成本或任务,是在审计"效率提升的隐性代价。"
结尾:Agent 没有死——但它的青春期结束了
Fiona Fung 的话不应该被读成"AI 寒冬"的信号。Anthropic 自己的工程师代码交付量同比增长 8 倍——这不是退步。
但 8 倍的增长不等于 8 倍的进步。进步需要 Agent 做对的事,不只是做更多的事。区分"动作"和"进展"——区分 motion 和 progress——不是在批评 Agent。是在给 Agent 的青春期画上句号。
青春期可以试。可以烧 Token。可以说"你看我多能跑"而不用证明跑的方向是对的。
成年期是 ROI 清算。是"哪些 Agent 行为产生了真实结果,哪些只是 Token 燃烧的噪音。"是"哪些工作在 Agent 加速后被证明本来就不需要存在。"是"当一个团队从 8 人变成 1 人 + Agent 后,剩下的人如何保持学习、纠错、在彼此的盲区里发现真相。"
Agent 没有死。但免费的试错期结束了。从现在开始——每一个 Token 都要为自己辩护。
来源:Lenny's Podcast (Fiona Fung 采访) / Horizon 每日速递 / InfoQ / 财富管理行业报道