eviso's thinking

AI指数增长背后的结构性转移与被忽视的裂缝

CONTENTS

GitHub 提交量同比暴增 14 倍,Anthropic 工程师一天提交 150 个 PR,顶级 AI 公司 18 个月冲到 $3000 万 ARR——数据不会说谎,AI 正在经历一次真实的指数级爆发。但在这些令人眩晕的数字之下,一些同样真实的裂缝正在浮现:算力叙事被质疑、创业泡沫加速暴露、AI 在医疗领域的实际效果存疑。本文试图同时容纳这两种信号,看看它们之间的张力指向什么。


2026 年 5 月的第一周,三条信息流交汇在一起:一份基于 92 个顶级技术博客的每日精选、两天 AI Builders Digest 对前沿从业者的追踪,以及 Stripe 数据负责人 Emily Glassberg Sands 在 5 月初那场信息密度极高的播客分享。

如果只看正面信号,画面极度乐观——AI 编程正在以超过所有人预期的速度普及,Agent 经济的基础设施正在成形,安全防御进入 AI 原生阶段。但同一周内,"AI 算力需求叙事是一个谎言"成为最高评分的博客文章,AI 反对声浪被列为热点话题,一份关于 LLM 医疗效果的系统综述给出了否定结论。

这不是乐观与悲观的简单对立。这是同一场技术革命的不同时间尺度和不同层级在同时展开。本文试图同时容纳这些信号,从中梳理出正在发生的结构性变化,以及那些可能被指数增长叙事掩盖的深层张力。


一、指数拐点:数据不会说谎

如果只用一个数字概括本周,那就是:GitHub 上的代码提交量同比增长了 14 倍

这个数字来自 Anthropic CEO Dario Amodei 此前的预测——"AI 将编写 90% 以上的代码"——以及随后实际观察到的数据。14 倍不是预测,是已经发生的事实。

但这只是故事的一个维度。本周我们还看到了另外几个定量信号:

Stripe 的数据:顶级 AI 公司到达 $3000 万 ARR 只需 18 个月,是 2018 年顶级 SaaS 公司的 3 倍。AI 公司正在以前所未有的速度扩张,且增长主要来自"净新增支出"(net new spend),而非从传统软件预算中抢夺——这意味着 AI 不是在重新分配蛋糕,而是在创造一块全新的蛋糕

Boris Cherny 的个人产出:Claude Code 创始人一天最多提交 150 个 PR,同时运行 5-10 个 session,夜间累计数千个 agent 在后台工作。他的代码 100% 由模型生成——从 2025 年底开始,没有写过任何一行代码。而且这种工作模式已经延伸到手机端:他经常从手机上管理数百个 agent。

Anthropic 的内部实践:全公司所有的 SQL 查询、代码编写、Slack 沟通,全部由模型完成。不是"AI 辅助",是彻底的 100% AI 原生。

这些数字放在一起,指向一个结论:AI 编程不只是在"提升效率",而是在改变"工作"的量纲。当一个人一天可以提交 150 个 PR,当一家 AI 公司 18 个月就可以冲到 $3000 万 ARR,"人数"作为一个竞争变量的意义正在被稀释。

但这里有一个重要的观察:量纲的改变带来的不一定是质变。150 个 PR 的质量分布是什么?$3000 万 ARR 的 AI 公司里,有多少是真正有护城河的?这是我们需要在下文中追问的问题。


二、Agent 经济:三个正在成形的支点

如果说 2024-2025 年是"Agent 概念"的提出期,那么 2026 年 5 月的信号表明,Agent 经济正在从概念走向基础设施。有三个支点同时在成形:

支点一:企业端——"Agent Engineer"新岗位的诞生

Box CEO Aaron Levie 在 5 月 7 日的推文中系统描述了一个全新的企业岗位:

"我们正在招募 Agent Engineer——一个内部 FDE 角色。这个人需要极强的技术能力,能够构建安全、受治理的 Agent,连接 Box、Salesforce、Workday 等业务系统,并通过 skill 将工作流编码化。但关键不是给某个岗位引入自动化,而是给整个流程引入自动化。"

Levie 特别强调:"It's not about bringing automation to a job, but bringing automation to a process." 这是对传统 RPA(机器人流程自动化)思维的根本性超越。传统自动化是把一个具体岗位的重复性工作交给机器;Agent 时代的自动化是横跨多个系统、多个流程,需要一个既懂技术又懂业务的"跨界者"来设计和维护。

他预测这将催生另一个新的角色——Agent 产品经理:负责定义"Agent 该做什么"的人。不是定义功能需求,而是定义 Agent 的行为边界、质量标准、以及与企业现有流程的嵌入方式。

这不是一个孤例。Zara Zhang 在同期提出了一个更激进的类比:"我们应该把 IT/内部工具团队看作'Agent 的 HR 部门'"。当 Agent 成为新的"数字工作者",IT 团队的角色从管理员工设备转向管理 Agent 的入离职、权限、行为审计和成本分摊。这是一种全新的组织能力。

支点二:工具端——从"执行命令"到"达成目标"

5 月 8 日,Claude 官方发布了两项新功能:OutcomesDreaming

Outcomes 的核心理念是:用户定义"什么是成功",而非"怎么做"。AI 自行迭代直到达到质量标准。这是从"地图导航"到"目的地描述"的转变——以前你告诉 AI 每一步怎么走,现在你只需要说"我要到这里",AI 自己规划路径、自己判断是否到达。

Dreaming 更进一步:AI 从历史 session 中提取模式,建立长期记忆。它开始记住你的偏好、代码风格、项目结构——不再每次从零开始。这个名字暗示 AI 在"不工作"的时候也在处理信息,类似于人类睡眠时的记忆巩固。

这两项功能的组合,指向一个明确的趋势:用户的角色从"指令者"转变为"评估者"。你不再需要详细告诉 AI 怎么做,你只需要设定标准、接受结果、在必要时干预。

Boris Cherny 提到的 Loop 功能是同一趋势的延伸:AI 不仅执行你给的任务,还会主动发现"这件事值得重复做"的场景,建议设置定时任务。人类不需要规划所有工作流,AI 开始参与"该做什么"的决策。

支点三:基础设施端——Agent Commerce 的形成

如果把视野从企业内部的 Agent 管理扩展到 Agent 与外部世界的交互,Stripe 的数据和 AI 负责人 Emily Glassberg Sands 在 5 月初的分享揭示了正在形成中的 Agent Commerce 基础设施

Agent to Commerce Protocol:Stripe 与 OpenAI 共同创建,商家只需集成一次,就可以通过仪表板让自己的商品出现在各种 AI Agent 的购物体验中。关键设计是商家始终作为"商户记录"(merchant of record),保持客户关系和欺诈控制的主动权——Agent 是购物代理人,不是中间商。

Shared Payment Token:Agent 不能看到用户的真实支付凭证,只能获得一个令牌来发起交易。Stripe 的雷达欺诈评分同时传给商户,确保商户知道这是"好人的 Agent"在合法购物。这解决了核心的安全问题:你不会把信用卡直接交给一个随机 Agent。

Link 作为消费者 AI 钱包:Link 已有约 2.5 亿消费者用户,正在演变为"委托购买"钱包。用户可以决定哪些 Agent 有权在什么条件下代表自己购买,每次购买可以设置审批流程。

Emily 还分享了一个关键判断:"目前 Agent 购物主要集中在日用品(commodities)——退货风险低、品质差异小、熟悉度高的商品。真正的大额购买还需要时间让消费者建立信任,就像早期电商需要时间让人们接受网上买鞋一样。"

这三个支点——企业内部的组织角色、AI 工具的自主能力、外部经济的基础设施——不是孤立的发展,而是同一个 Agent 经济拼图的不同拼块。当它们同时成形时,意味着 Agent 从"技术 demo"到"经济运行基础单元"的跨越正在加速。


三、安全攻防:AI 原生的新范式

当 Agent 的能力在快速提升,安全问题的性质也在同步变化。本周的三个信号——GPT-5.5-Cyber、deepsec、Claude Code Auto Mode——分别代表了防御、检测和治理三个层面的 AI 安全新范式。

GPT-5.5-Cyber:AI 公司进入网络安全市场

Sam Altman 在 5 月 1 日宣布 OpenAI 推出 GPT-5.5-Cyber,一个"前沿网络安全模型",定向提供给"关键网络防御者"。这不是一个面向普通用户的产品——它是一条 B2G(企业到政府)和 B2B 安全产品线。

这里的深层逻辑是:AI 公司正在从"被攻击的目标"转变为"防御武器的提供商"。当最强的 AI 模型被用于威胁情报分析、漏洞检测和攻击面评估时,AI 就不再只是安全问题的一部分——它是安全解决方案的一部分。

但这也引入了一个双重角色的张力:提供者同时也是潜在的被攻击目标。OpenAI 需要建立"可信访问"框架——谁能获得最强的网络安全模型?这个问题本质上是一个政治和治理问题,而非纯技术问题。

deepsec:Agent 驱动的代码安全审查

Vercel CEO Guillermo Rauch 在 5 月 7 日宣布开源 deepsec——一个用于深度安全审查的 Agent 编排器。它的核心能力是并行运行数千个 Agent 来审查代码库,能够在几分钟内发现传统安全团队需要数月才能找到的漏洞。

Rauch 的原话是:"Coding agents can now find critical vulnerabilities in minutes that would take teams of people months."

这个工具的价值不仅在于效率。它标志着安全审查的门槛正在大幅降低。过去只有大型公司能负担得起深度的安全审计,现在任何开源项目都可以获得数千个 Agent 的并行审查。但这也带来一个新问题:当 Agent 能快速发现大量漏洞时,人类团队如何有效处理这些发现?发现速度和修复速度之间的差距可能成为一个新的瓶颈。

Claude Code Auto Mode:从人工审批到模型判断

Anthropic 在 5 月 7 日发布的工程博客详细介绍了 Claude Code 的 Auto Mode。这是本周信息密度最高的技术文档之一。

Auto Mode 解决的核心问题是"审批疲劳":当 AI coding agent 频繁请求用户批准每个操作时,用户最终会习惯性点击 approve 而不再仔细审查——这实际上和没有审批一样危险。

Auto Mode 的方案是将审批权委托给基于模型的 classifier,使用双层防御机制:

第一层:服务器端 prompt-injection 探测器,在工具输出进入 Agent context 之前扫描其中的恶意指令。一旦检测到注入尝试,立即添加警告并引导 Agent 重新锚定用户真实意图。

第二层:transcript classifier(基于 Sonnet 4.6),在每个 action 执行前评估其是否与用户意图一致。

关键的设计理念在于:攻击者需要同时绕过第一层探测器并说服第二层分类器该操作是安全的,难度显著提升。在真实流量(n=10,000)上,Auto Mode 实现了 8.5% 的误报率,经过双阶段 pipeline 后降至 0.4%。在真实 overeager 行为(n=52)上的漏报率为 17%——这个数字看似不完美,但 Anthropic 团队认为这已经是从零保护到完全人工审批之间的最优平衡点。

更值得关注的是 Deny-and-continue 机制:当 classifier 阻止某个 action 时,结果作为 tool result 返回并附带指示 Agent 寻找替代安全路径的指令,而不是中断整个 session。只有累积 3 次连续拒绝或 20 次总拒绝,系统才会停止并升级给人类。这个设计让 false positive 的成本降到最低——一次拒绝只是一次重试。

Anthropic 对威胁模型的定义也值得注意:四类危险行为中,over eager behavior(Agent 理解目标但行动超出用户授权范围)和 honest mistakes(Agent 误判了影响范围)在实际中最为常见,而非恶意攻击。这个认知直接影响了防御优先级——保护用户免受"好意的 AI 过度主动"的伤害,比防御恶意攻击更紧迫。

三个信号放在一起,勾勒出一个正在浮现的 AI 安全新范式:安全的主体从"人类操作"转向"AI 行为",安全的机制从"人工审批"转向"模型判断",安全的规模从"人工团队审查"转向"数千 Agent 并行扫描"


四、被忽视的裂缝:增长叙事背后的四个问题

指数增长的数据令人兴奋,Agent 经济的基础设施令人期待,AI 安全的进化令人安心。但同一周内,四条来自不同方向的信号提示我们,增长的表面之下存在一些需要正视的裂缝。

裂缝一:算力需求叙事被质疑

本周评分最高的博客文章之一来自 Ed Zitron,标题非常直白:"The AI Compute Demand Story Is A Lie"(AI 算力需求叙事是一个谎言)

文章的核心论点是:当前所谓的"AI 算力短缺"并非源于真实的 AI 需求旺盛,而是大型云服务商(hyperscalers)的商业策略——"产能限制更多是商业叙事而非技术瓶颈"。作者批评两家接近万亿美元市值的公司依赖"父母福利"维持运营,将产能限制包装为需求爆发。

这篇文章的评分之高,本身就是一个信号:AI 行业的算力叙事正在面临越来越多的审视。即使你不完全同意 Ed Zitron 的结论,他的批评指向了一个真实的问题——当我们说"算力不够"时,我们指的是"模型训练需要更多 GPU"还是"商业模型需要持续的叙事来支撑估值"?这两者之间的界限并不总是清晰的。

Thariq(Claude Code 团队工程师)同期转发的 Dario Amodei 观点——"真正的护城河是持续获取算力"——恰好与 Ed Zitron 的批评形成了一组对立。一边说算力需求是商业叙事,一边说算力是核心护城河。两者的共同点在于:算力问题本质上已经超越了技术层面,进入了商业和政治经济的领域

裂缝二:AI 创业的"增长优先"陷阱

Nikunj Kothari(FPV Ventures 合伙人)在 5 月 7 日分享了一个关于 2023-2025 年创业周期的反思:

"Momentum (in lieu of anything else) has ceased to be a moat. It never was in the first place, and the numbers (seed → Series A gap) are starting to show this."

他的观察是:这一批 AI 创业者在拿到融资后过度关注分发渠道和增长,而严重忽视了用户留存。增长势能从来都不是护城河,而真实的数据已经开始揭示这个问题。

Nikunj 预测将出现大量 acquihire(人才收购),因为很多公司最终无法证明自己的增长策略是可持续的。

这个判断和 Stripe Emily 的数据形成了一种有趣的呼应:AI 公司确实在以前所未有的速度增长(18 个月到 $3000 万 ARR),但增长速度和增长质量是两回事。当一个 AI 公司靠炫酷的发布视频和强大的分销策略拿到大量用户,但用户留存率低下时,那些漂亮的增长数字可能在掩盖一个随时会崩塌的基础。

值得思考的点在于:AI 本身降低了创业门槛,但这不代表它提高了创业成功率。相反,因为建造 MVP 的成本急剧下降,竞争可能更激烈,护城河可能更难建立。

裂缝三:AI 在医疗领域的有限证据

Gary Marcus 在 5 月 5 日分享了一篇系统综述的结论:

尽管大语言模型在医疗应用中被广泛部署,但目前尚无充分证据表明其改善了患者的实际预后。多数评估停留在技术性能层面,缺乏严格的临床验证和因果关系证明。

这个结论的含义不只是"AI 在医疗领域还没证明自己"——它指向一个更根本的问题:"在 benchmark 上表现好"和"在真实世界中产生积极影响"之间的鸿沟。这个问题不限于医疗领域。Kevin Weil(OpenAI VP Science)在同期提出了一个深刻的观察:放射科医生的工作不是"读 X 光片",而是"治愈病人"。读片是手段,治愈是目标。如果 AI 能帮助医生更快读片,但在整个治愈链条中引入了新的错误模式或责任归属问题,那么"技术进步"和"患者受益"之间的因果关系就不成立。

这个裂缝对于 AI 行业的启示是:不要用 benchmark 分数替代效果验证。在医疗、法律、金融等高风险领域,"模型准确率提升 3 个百分点"和"用户结果改善"之间的距离可能比我们想象的要远得多。

裂缝四:AI 反对声浪正在上升

Gary Marcus 同期发表的另一篇文章标题为"日益增长的 AI 反对浪潮"(The growing AI backlash)。他的判断是:"没有人应该对此感到惊讶,这反映了公众对 AI 发展带来的潜在风险的担忧。"

Ed Zitron 的算力谎言论、Marcus 的系统综述、AI 眼镜隐私事件(Meta 解雇揭露隐私问题的承包商)——这些信号正在汇聚成一股越来越难以忽视的反对声浪。

这不是要否定 AI 的价值。而是要认识到:任何技术革命的公众接受曲线都不可能是单向向上的。当 AI 从"实验室里的技术"变为"影响每个人生活的产品"时,质疑、反对和监管压力是不可避免的阶段。如何在这个阶段保持建设性,同时不忽视合理的关切,是 AI 行业面临的一个重要挑战。


五、创业者的结构性窗口:为什么现在是"最好也是最坏"的时机

如果把积极的信号和裂缝放在一起看,会得到一个更立体的图景。对于 AI 时代的创业者,这可能是"最好也是最坏"的时机。

护城河的重构

Boris Cherny 在访谈中提出了一个值得反复咀嚼的判断:SaaS 的传统护城河——切换成本和流程锁定——正在解体。新的护城河是网络效应和规模经济。

逻辑很清晰:当所有 SaaS 都接入同等水平的 AI 能力时,功能差异化会快速趋同,用户的切换成本大幅下降。但网络效应不会因为 AI 而消失——反而可能因为 AI 降低了使用门槛而加强。

对创业者的启示:不要只做"AI 功能"。要思考哪些环节能形成网络效应或数据积累的护城河。AI 是武器,不是盾牌。

大公司的"组织惯性"是小团队的结构性优势

Boris 的核心观点之一是:"差距在组织流程,而非技术。"

Anthropic 内部和外部使用的是相同的模型,但效果天差地别。原因是外部公司无法像 Anthropic 那样以 AI 原生的方式重建工作流程。大公司的真正阻力不是技术,而是组织惯性——部门墙、审批流程、既有系统包袱。

"现在是创业最好的时机,"Boris 说,"因为小团队可以正面挑战大公司。"

这句话的背景是:AI 抹平了技术差距后,剩下的是谁能更快地把 AI 能力转化为产品。小团队没有包袱,可以完全以 AI 原生的方式构建。这是结构性优势,不是暂时性的。

但 Nikunj Kothari 的警告同样适用:增长势能不是护城河。创业门槛降低了,但建立可持续竞争优势的难度并没有降低。如果不能在产品市场契合和用户留存上建立起真正的壁垒,快速增长只会通向更快的坠落。

编程的民主化

Boris 将当前时刻类比到 15 世纪的印刷术:

当时书籍成本下降 100 倍用了 50 年,识字率从 10% 上升到 70%。编程将在更短时间内实现同等普及。

这是一个宏大的叙事,但它暗示了几个具体的趋势:"写代码"将从专业技能变为通用技能。未来的竞争不是"会不会编程",而是"会不会指挥 AI 编程"。"描述需求"和"评估结果"的能力,正在变得比"写出正确语法"更重要。

Felix Rieseberg(Anthropic)此前的一个判断与 Boris 的观点呼应:

"The skills required will shift slightly from just being someone who speaks the computer's language and will shift much more towards being someone who speaks human language."

Human taste(人类品味)正在成为真正的稀缺资源。


结语:什么在同时发生

回到开头的问题:2026 年 5 月的第一周,AI 领域究竟在发生什么?

表面上,我们看到的是指数增长——GitHub 提交量 14 倍、代码 100% AI 生成、AI 公司 3 倍速增长。这些都是真实的。

更深一层,我们看到的是结构性转移——Agent 从工具进化为协作者,安全工作从人工审批转向模型判断,编程从专业技能变为通用素养。这些变化不是量变,是质变。

但与此同时,我们也看到了被忽视的裂缝——算力叙事被质疑、创业泡沫在暴露、AI 在关键领域的实际效果存疑、公众反对声浪在上升。这些裂缝不是 AI 会失败的证据,但它们是 AI 行业需要正视的现实。

Peter Yang 转述的 Dario Amodei 那句话可以作为这个时刻的注脚:

"模型正在从'写代码'跃迁到'经营业务'。"

这个跃迁正在进行中。但"经营业务"不只是技术能力的延伸——它涉及对复杂系统的理解、对不确定性的容忍、对利益相关者的平衡。这些是人类花了几千年才学会的事情,AI 能否做到、在多长时间内做到、做到什么程度——这些问题目前没有确定答案。

在这个时刻,最有价值的思考姿态不是选边站("AI 是未来"vs"AI 是泡沫"),而是同时容纳两种信号的能力:相信指数增长的真实性,同时保持对结构脆弱性的警觉。


本文基于以下来源整理撰写:

  • 2026-05-05 AI 博客每日精选(基于 Karpathy 推荐的 92 个顶级技术博客)
  • 2026-05-07 AI Builders Digest(Follow Builders 项目)
  • 2026-05-08 AI Builders Digest(Follow Builders 项目)
  • 2026-05-01 AI Builders Digest 中 Emily Glassberg Sands / Stripe 的 Agent Commerce 分享

主要信息源:Sam Altman、Aaron Levie、Boris Cherny、Guillermo Rauch、Nikunj Kothari、Garry Tan、Peter Yang、Aditya Agarwal、Kevin Weil、Thariq、Zara Zhang、Emily Glassberg Sands、Gary Marcus、Ed Zitron、Anthropic Engineering Blog