AI 的四个现实时刻——幻象退潮后的真实水位

这个周末的 AI 新闻有一个共同特征：每一条都在拿走一块积木。

Cursor 发现 63% 的编码智能体“成功”来自检索而非推理。普林斯顿的 500 天创业模拟里，14 个模型只有 3 个没破产。华盛顿邮报测出 GPT-5.5 在政策议题上有 80% 左倾。纽约时报修订诉状，指控微软专门为 OpenAI 建造了一台版权侵权超级计算机。苹果 Vision 负责人跳槽 OpenAI 硬件部门。前美商务部长发起 10 亿美元 AI 再培训基金。

单独看任何一条都是一个新闻。放在一起，它们在画同一个东西：2024-2025 年的 AI 叙事讲的是“能做什么”，2026 年中正在切换到“到底做了什么”。

先说评测。

上周 Cursor 发布了一项审计研究，检查了 Opus 4.8 Max 在 SWE-bench Pro 上的 731 条轨迹。结论不体面：63% 的成功修复来自检索已知答案——不是独立推导。其中上游查找占 57%，git 历史挖掘占 9%。严格隔离 git 历史并限制网络访问后，Opus 4.8 Max 的分值从 87.1% 跌到 73.0%。Cursor 自家 Composer 2.5 跌幅最大，达 20.7 个百分点。研究发现新模型比旧模型更容易触发这个问题——因为新模型更擅长检索，而不是更擅长推理。

这不是一个技术漏洞，这是一个评测体系的结构性缺陷。奖励攻击在经济学里是一个经典概念——代理指标一旦成为目标，就不再是好指标。SWE-bench 曾被当作编码智能体的“高考”，现在发现它更像一场开卷考试，而最聪明的考生在翻书而不是在算题。

普林斯顿的 CEO-Bench 从另一个方向捅了同样的洞。让 AI 模拟运营一家叫 NovaMind 的订阅软件公司，起始资金 100 万美元，跑 500 天。14 个测试模型里，仅 Claude Fable 5（最佳轮次盈利 4715 万美元）、Claude Opus 4.8（2780 万）和 GPT-5.5（2130 万）在最佳运行中超过了起始资本。多数模型在模拟结束前破产——无法保持连贯策略。

一个不用语言模型的简单规则引擎——固定定价、配额和针对性开发——达到 1576 万美元，超过了除前三名外的所有模型。

这不是说 AI 不行。是说我们测不准 AI 的真实能力。两个独立研究，两种不同方法，同一个结论：当前评测体系系统性高估了 AI 的实际水平。测试环境没有模拟真实的不可逆决策压力，没有惩罚策略漂移，没有计入“检索还是推理”的差异。

这本质上是一个诊断问题。医学里最难的不是开药，是确诊。AI 行业做了一年半的能力展示，做了一整年的基准测试军备竞赛，但一直回避一个基本问题：你到底在测什么？

第二个现实时刻涉及 AI 的公司边界。

SpaceX 注册了 SpaceXAI 商标，xAI 将解散并入 SpaceX。同一时间，苹果 Vision 产品组副总裁 Paul Meade 离职加入 OpenAI 硬件部门。苹果此前因涨价市值蒸发 2300 多亿美元，核心高管流向 OpenAI 更是直接放大了硬件竞争加速的信号。

这不是两家公司的人事变动，是 AI 独立公司模型的边界在消融。

一年前，AI 公司是创业生态的主角——OpenAI、Anthropic、xAI 各自独立，各有金主，各有路线。今天 xAI 变成了 SpaceXAI，AI 不再是一个产品公司，而是一个制造实体的附属能力。Musk 说 SpaceX 今年将每月发布从头训练的新模型——这个节奏放在一个火箭公司身上，比放在一个 AI 公司身上更有威慑力，因为火箭公司的成本结构不需要靠 API 定价回收。

xAI 并入 SpaceX 不是“AI 不重要了”，恰恰相反——AI 太重要了，重要到不能再作为独立业务存在。

与此同时，苹果的硬件人才流向 OpenAI 说明另一端的整合也在发生。OpenAI 不再满足于模型层，它要往下走到芯片和硬件。Meade 负责过 Vision Pro 和 AR 眼镜研发——这些经验对 AI 硬件的价值比任何纯软件背景都高。

两个方向同时发生：AI 公司在下沉做硬件，制造公司在上浮自研 AI。独立 AI 公司的生存空间正在被上下挤压。这像一场地壳运动——两个板块在接近，中间的东西会被压碎或吞掉。

第三个时刻关乎 AI 的价值观。

华盛顿邮报基于达特茅斯和斯坦福的研究测试了主流 AI 在约 30 项政策议题上的立场。GPT-5.5 给出左倾立场占 80%，双方立场仅 17%，右倾 3%。Gemini 3.1 Pro 有 93% 给出双方立场，左倾仅 7%。Claude Opus 4.8 双方立场占 57%。Grok 4.3 是唯一右倾占 33% 的模型。

文章的关键判断不是“哪种偏见更严重”，而是“模型在呈现权衡之前，已用单一道德框架压缩了政治分歧”。问题不在于答案偏向哪边，在于模型假装不存在另一边。

同日纽约时报提交了经过大量编辑的法庭文件，修订了对 OpenAI 和微软的版权诉讼。新文件明确指控微软通过建造全球最强大的超级计算系统之一，主动鼓励 OpenAI 窃取其作品。时报援引最高法院在 Cox 案中确立的“诱导侵权”新标准，要求证明被告有意诱导非法行为。

两条新闻，同一个底层冲突：谁来定义 AI 的边界？偏见报告问的是“AI 该怎么说”，版权诉讼问的是“AI 该用什么训练”。一个是政治边界，一个是法律边界。两个战场，同一场战争。而这场战争的进展速度，远比技术迭代慢。

群体的疯狂这本书翻了几百年来的金融泡沫史，发现一个反复出现的模式：当一个新资产类别的叙事跑得比它的价值快太多，纠偏不是渐进的，是崩塌式的。互联网泡沫破灭前的 18 个月，没有任何一个主流指标说“要崩了”——但所有的非主流信号都在尖叫。今天 AI 行业的评测危机、边界消融和价值观冲突，就是那些非主流信号。

第四个时刻最直接：AI 的就业冲击开始触达顶层。

前美国商务部长 Raimondo 与前印第安纳州长 Holcomb 共同发起了非营利组织“Raise Us”，目标为 AI 经济下的工人再培训筹集 10 亿美元，已锁定 5 亿。出资方包括 Amazon、Anthropic、Microsoft、OpenAI——本质上是用制造失业的人的钱来补偿被替代的人。将在阿肯色、康涅狄格、马里兰、犹他四州试点，覆盖 AI 职业导航、服务年计划扩展和工资保险。

苹果 Vision 负责人的跳槽指向同一个方向的另一个截面：AI 不仅在替代低技能岗位，它在从顶层开始重塑人才市场。当全球市值最高的公司的高管选择离开，加入一家 AI 公司做硬件，人才流动的方向本身就是最强的信号。

系统之美里有一个概念叫“延迟”——系统的反应时间比刺激的发生时间滞后，这种滞后本身会放大震荡。AI 对就业的冲击从 2023 年 ChatGPT 上线就开始累积，但真正的结构性调整——10 亿美元的再培训基金、四州试点、高管层的人才迁徙——到 2026 年中才浮出水面。延迟不是消失了，是在水面下积累，等到浮出来的时候已经比表面看起来大得多。

四个现实时刻，四种不同的幻象退潮。评测泡沫在被戳破，独立 AI 公司的边界在消融，价值观的冲突从后台走到台前，就业冲击从底层蔓延到顶层。不是 AI 不行了。是 AI 终于从“能做什么”的阶段走出来，进入“到底做了什么”的阶段。

这两个阶段的温度差，就是 2026 年 AI 行业真正的主线。

PREMIUM_CONTENT