Anthropic 一边造车一边喊刹车：AI 安全的自我悖论

说白了，AI 安全这件事，不是技术问题，是话语权游戏。2026 年 6 月 4 日，Horizon Daily 从 721 条抓取里筛出 32 条（入选率仅 4.4%），其中 5 条的主角是同一家公司：Anthropic（当日占比 15.6%）。这 5 条新闻不是分散的巧合，是同一硬币的两面被同时翻开的瞬间。把这 5 条铺在同一张桌上，能看清一件多数人还没命名的事。

这事不是 Anthropic 错了——这事是"AI 安全"这个词本身被武器化了。

5 条新闻，同一天

第一条 9.0/10：据《金融时报》报道，美国国家安全局（NSA）正在使用 Anthropic 的实验性 Mythos 模型进行进攻性网络行动——同一篇报道里 Anthropic 与五角大楼就 Claude 模型被用于自主武器或大规模监控的限制打官司，五角大楼已于 2026 年 3 月将 Anthropic 指定为供应链风险。第二条 8.0/10：Anthropic 在同一天开源了 defending-code-reference-harness，一个让安全研究人员用 AI 代理找漏洞的框架，官方跑一次的成本是几百到几千美元。

第三条 7.0/10：Anthropic 自己的 Institute 发布了递归式自主改进（RSI）的进展报告，社区的冷嘲热讽跟新闻本身一样多——服务频繁中断、内存吃紧、AI 领域之外的软件突破为零，有人把追求 RSI 比作"在和平时期制造核武器"。第四条 7.0/10：Anthropic 联合创始人 Jack Clark 在 BBC Newsnight 上警告 AI 即将能在没有人类输入的情况下自主发展，需要一个"刹车踏板"，但他没有说明刹车踏板的机制长什么样——5 条新闻里 0% 提到 Mythos 的刹车机制长什么样，100% 都在讲问题，没有一条讲工具。第五条 6.0/10：谷歌要求 404 Media 修改已发布的声明，删掉"必须保持人工参与"那类表述（原话用了更强的词）。这 5 条放在一起看，画面就出来了。

悖论的四个层次

个人层：Jack Clark 嘴里说"要刹车"，公司同时发布"RSI 路线"——脚踩油门。公司层：Anthropic 一边被 NSA 拿去做网络攻击，一边开源防御框架——框架开源意味着防守方拿到，也意味着攻击方拿到。产业层：Anthropic 喊刹车的同时，谷歌悄悄删掉了"人工监督"的承诺——整个行业都在退场，没有人接棒。社会层：L'Obs 6 月 4 日的评论说得最清楚，AI 在社会里的位置不能只由几家科技巨头决定，但决定权一直在巨头手里。这四层不是独立的——它们是同一种权力的四个面，技术演示出来是道，落到合同里是术，争抢的是话语权。AI 安全的核心议题不是技术，是术的分配。

不是悲观，是话语真空

"AI 安全"这四个字到 2026 年 6 月已经出现了严重的语义通货膨胀：它在 NSA 的合同里是技术许可，在 Anthropic 的博客里是公司叙事，在 BBC 的节目里是公共警示，在谷歌的公关里是可以被悄悄删除的承诺。同一个词在四个地方指四件事，没有一个地方真的承担它的字面重量。

这跟达利欧在《国家为什么会破产》里讲过的债务循环是同构的——市场对"安全资产"的需求越高，发行方越有动力把任何资产都贴上"安全"标签，标签多了"安全"这个词本身被稀释到没有意义。Anthropic 现在的处境就是"AI 安全"版的次贷危机前夜。

不对，这个类比有点过——准确说是次贷危机的早期信号，还没到崩塌，但路径已经画出来了。

换句话说，谁嗓门最大，谁定义安全。

反者道之动

道家讲"反者道之动"——事物走向它的反面，是规律本身。Anthropic 的故事把这句话翻译得清清楚楚：它越强调安全，就越被纳入不安全用途。不是因为它虚伪，是因为"安全"这个标签在权力场里会自动磁化——谁有最强的能力，谁就同时被最强的需求拉走。

NSA 选 Mythos 不是因为 Mythos 道德败坏，恰恰相反，是因为 Mythos 是市场上最被信任的"安全"模型。在进攻性网络行动这个场景里，最被信任意味着最难被识别——这是悖论的核心。

毛泽东的"纸老虎"

毛泽东在 1946 年跟斯特朗讲"一切反动派都是纸老虎"的时候，说的是看着吓人、本质是虚的。Anthropic 不是纸老虎——它的能力是真实的，安全叙事也是真实的，问题是这两个真实正在相互拆台。

当你把"安全"和"能力"同时推到极致，它们会进入一种奇异的相持：你越证明自己安全，别人越敢把最危险的活交给你；你越证明自己危险，越需要强调自己的安全承诺——这是当代版的"自我实现的预言"，只不过方向是反的。这话看起来很反直觉，但拆开看其实是结构性的，不是某个人的选择，是 4 个层次的力量同时拉扯的结果。

开源不是中立

一个被忽略的细节：defending-code-reference-harness 是开源的。社区评论里 Simonw 算了一笔账，每次跑用 Opus 几百美元、用 Mythos 几千美元，tptacek 干脆说"这是木工夹具，最好自己造"——没人讨论的是，这个框架一旦开源，对攻击方和防守方是平等的。

Anthropic 选择开源可能出于真诚的"放大防守方能力"动机，但结果是攻防两端同时被放大。这不是道德问题，是技术扩散的非对称性：NSA 用 Mythos 攻击的成本，比一个印度安全研究员用 defending-code-reference-harness 找漏洞的成本，只低不高。

这意味着什么

5 条新闻、4 个层次、1 个真空。AI 安全不是技术议题，是权力议题——技术本身没有"安全"或"不安全"，它只有"被谁用"和"用在哪"。当一家公司同时被纳入 NSA 的进攻性合同、自主武器的法律纠纷、开源防御工具的扩散、AI 安全的自身警告清单——它就不再是一家公司，它是整个"AI 安全"这个概念正在失效的样本。Anthropic 5 条新闻 5 个证据，加起来是一句诊断：

"AI 安全"这个短语，到 2026 年中，已经从治理目标变成营销话术，从营销话术变成法律责任的挡箭牌。它在被消耗殆尽。

留给读者一个问题：如果"AI 安全"这个词已经空了，我们用什么新词来接住它？

参考来源：

Horizon Daily 2026-06-05（#1, #2, #14, #15, #17, #27）
Financial Times - 美国国家安全局使用 Anthropic Mythos AI 进行网络攻击
BBC Newsnight - Anthropic 联合创始人 Jack Clark 警告 AI 需要"刹车踏板"
Anthropic Institute - 递归自我改进进展报告
Simon Willison - 谷歌要求 404 Media 删除人工监督承诺
L'Obs - AI 辩论不能只留给科技巨头