这个周末的 AI 新闻有一个共同特征:每一条都在拿走一块积木。
Cursor 发现 63% 的编码智能体“成功”来自检索而非推理。普林斯顿的 500 天创业模拟里,14 个模型只有 3 个没破产。华盛顿邮报测出 GPT-5.5 在政策议题上有 80% 左倾。纽约时报修订诉状,指控微软专门为 OpenAI 建造了一台版权侵权超级计算机。苹果 Vision 负责人跳槽 OpenAI 硬件部门。前美商务部长发起 10 亿美元 AI 再培训基金。
单独看任何一条都是一个新闻。放在一起,它们在画同一个东西:2024-2025 年的 AI 叙事讲的是“能做什么”,2026 年中正在切换到“到底做了什么”。
先说评测。
上周 Cursor 发布了一项审计研究,检查了 Opus 4.8 Max 在 SWE-bench Pro 上的 731 条轨迹。结论不体面:63% 的成功修复来自检索已知答案——不是独立推导。其中上游查找占 57%,git 历史挖掘占 9%。严格隔离 git 历史并限制网络访问后,Opus 4.8 Max 的分值从 87.1% 跌到 73.0%。Cursor 自家 Composer 2.5 跌幅最大,达 20.7 个百分点。研究发现新模型比旧模型更容易触发这个问题——因为新模型更擅长检索,而不是更擅长推理。
这不是一个技术漏洞,这是一个评测体系的结构性缺陷。奖励攻击在经济学里是一个经典概念——代理指标一旦成为目标,就不再是好指标。SWE-bench 曾被当作编码智能体的“高考”,现在发现它更像一场开卷考试,而最聪明的考生在翻书而不是在算题。
普林斯顿的 CEO-Bench 从另一个方向捅了同样的洞。让 AI 模拟运营一家叫 NovaMind 的订阅软件公司,起始资金 100 万美元,跑 500 天。14 个测试模型里,仅 Claude Fable 5(最佳轮次盈利 4715 万美元)、Claude Opus 4.8(2780 万)和 GPT-5.5(2130 万)在最佳运行中超过了起始资本。多数模型在模拟结束前破产——无法保持连贯策略。
一个不用语言模型的简单规则引擎——固定定价、配额和针对性开发——达到 1576 万美元,超过了除前三名外的所有模型。
这不是说 AI 不行。是说我们测不准 AI 的真实能力。两个独立研究,两种不同方法,同一个结论:当前评测体系系统性高估了 AI 的实际水平。测试环境没有模拟真实的不可逆决策压力,没有惩罚策略漂移,没有计入“检索还是推理”的差异。
这本质上是一个诊断问题。医学里最难的不是开药,是确诊。AI 行业做了一年半的能力展示,做了一整年的基准测试军备竞赛,但一直回避一个基本问题:你到底在测什么?
第二个现实时刻涉及 AI 的公司边界。
SpaceX 注册了 SpaceXAI 商标,xAI 将解散并入 SpaceX。同一时间,苹果 Vision 产品组副总裁 Paul Meade 离职加入 OpenAI 硬件部门。苹果此前因涨价市值蒸发 2300 多亿美元,核心高管流向 OpenAI 更是直接放大了硬件竞争加速的信号。
这不是两家公司的人事变动,是 AI 独立公司模型的边界在消融。
一年前,AI 公司是创业生态的主角——OpenAI、Anthropic、xAI 各自独立,各有金主,各有路线。今天 xAI 变成了 SpaceXAI,AI 不再是一个产品公司,而是一个制造实体的附属能力。Musk 说 SpaceX 今年将每月发布从头训练的新模型——这个节奏放在一个火箭公司身上,比放在一个 AI 公司身上更有威慑力,因为火箭公司的成本结构不需要靠 API 定价回收。
xAI 并入 SpaceX 不是“AI 不重要了”,恰恰相反——AI 太重要了,重要到不能再作为独立业务存在。
与此同时,苹果的硬件人才流向 OpenAI 说明另一端的整合也在发生。OpenAI 不再满足于模型层,它要往下走到芯片和硬件。Meade 负责过 Vision Pro 和 AR 眼镜研发——这些经验对 AI 硬件的价值比任何纯软件背景都高。
两个方向同时发生:AI 公司在下沉做硬件,制造公司在上浮自研 AI。独立 AI 公司的生存空间正在被上下挤压。这像一场地壳运动——两个板块在接近,中间的东西会被压碎或吞掉。
第三个时刻关乎 AI 的价值观。
华盛顿邮报基于达特茅斯和斯坦福的研究测试了主流 AI 在约 30 项政策议题上的立场。GPT-5.5 给出左倾立场占 80%,双方立场仅 17%,右倾 3%。Gemini 3.1 Pro 有 93% 给出双方立场,左倾仅 7%。Claude Opus 4.8 双方立场占 57%。Grok 4.3 是唯一右倾占 33% 的模型。
文章的关键判断不是“哪种偏见更严重”,而是“模型在呈现权衡之前,已用单一道德框架压缩了政治分歧”。问题不在于答案偏向哪边,在于模型假装不存在另一边。
同日纽约时报提交了经过大量编辑的法庭文件,修订了对 OpenAI 和微软的版权诉讼。新文件明确指控微软通过建造全球最强大的超级计算系统之一,主动鼓励 OpenAI 窃取其作品。时报援引最高法院在 Cox 案中确立的“诱导侵权”新标准,要求证明被告有意诱导非法行为。
两条新闻,同一个底层冲突:谁来定义 AI 的边界?偏见报告问的是“AI 该怎么说”,版权诉讼问的是“AI 该用什么训练”。一个是政治边界,一个是法律边界。两个战场,同一场战争。而这场战争的进展速度,远比技术迭代慢。
群体的疯狂这本书翻了几百年来的金融泡沫史,发现一个反复出现的模式:当一个新资产类别的叙事跑得比它的价值快太多,纠偏不是渐进的,是崩塌式的。互联网泡沫破灭前的 18 个月,没有任何一个主流指标说“要崩了”——但所有的非主流信号都在尖叫。今天 AI 行业的评测危机、边界消融和价值观冲突,就是那些非主流信号。
第四个时刻最直接:AI 的就业冲击开始触达顶层。
前美国商务部长 Raimondo 与前印第安纳州长 Holcomb 共同发起了非营利组织“Raise Us”,目标为 AI 经济下的工人再培训筹集 10 亿美元,已锁定 5 亿。出资方包括 Amazon、Anthropic、Microsoft、OpenAI——本质上是用制造失业的人的钱来补偿被替代的人。将在阿肯色、康涅狄格、马里兰、犹他四州试点,覆盖 AI 职业导航、服务年计划扩展和工资保险。
苹果 Vision 负责人的跳槽指向同一个方向的另一个截面:AI 不仅在替代低技能岗位,它在从顶层开始重塑人才市场。当全球市值最高的公司的高管选择离开,加入一家 AI 公司做硬件,人才流动的方向本身就是最强的信号。
系统之美里有一个概念叫“延迟”——系统的反应时间比刺激的发生时间滞后,这种滞后本身会放大震荡。AI 对就业的冲击从 2023 年 ChatGPT 上线就开始累积,但真正的结构性调整——10 亿美元的再培训基金、四州试点、高管层的人才迁徙——到 2026 年中才浮出水面。延迟不是消失了,是在水面下积累,等到浮出来的时候已经比表面看起来大得多。
四个现实时刻,四种不同的幻象退潮。评测泡沫在被戳破,独立 AI 公司的边界在消融,价值观的冲突从后台走到台前,就业冲击从底层蔓延到顶层。不是 AI 不行了。是 AI 终于从“能做什么”的阶段走出来,进入“到底做了什么”的阶段。
这两个阶段的温度差,就是 2026 年 AI 行业真正的主线。