说白了,AI 安全这件事,不是技术问题,是话语权游戏。2026 年 6 月 4 日,Horizon Daily 从 721 条抓取里筛出 32 条(入选率仅 4.4%),其中 5 条的主角是同一家公司:Anthropic(当日占比 15.6%)。这 5 条新闻不是分散的巧合,是同一硬币的两面被同时翻开的瞬间。把这 5 条铺在同一张桌上,能看清一件多数人还没命名的事。
这事不是 Anthropic 错了——这事是"AI 安全"这个词本身被武器化了。
5 条新闻,同一天
第一条 9.0/10:据《金融时报》报道,美国国家安全局(NSA)正在使用 Anthropic 的实验性 Mythos 模型进行进攻性网络行动——同一篇报道里 Anthropic 与五角大楼就 Claude 模型被用于自主武器或大规模监控的限制打官司,五角大楼已于 2026 年 3 月将 Anthropic 指定为供应链风险。第二条 8.0/10:Anthropic 在同一天开源了 defending-code-reference-harness,一个让安全研究人员用 AI 代理找漏洞的框架,官方跑一次的成本是几百到几千美元。
第三条 7.0/10:Anthropic 自己的 Institute 发布了递归式自主改进(RSI)的进展报告,社区的冷嘲热讽跟新闻本身一样多——服务频繁中断、内存吃紧、AI 领域之外的软件突破为零,有人把追求 RSI 比作"在和平时期制造核武器"。第四条 7.0/10:Anthropic 联合创始人 Jack Clark 在 BBC Newsnight 上警告 AI 即将能在没有人类输入的情况下自主发展,需要一个"刹车踏板",但他没有说明刹车踏板的机制长什么样——5 条新闻里 0% 提到 Mythos 的刹车机制长什么样,100% 都在讲问题,没有一条讲工具。第五条 6.0/10:谷歌要求 404 Media 修改已发布的声明,删掉"必须保持人工参与"那类表述(原话用了更强的词)。这 5 条放在一起看,画面就出来了。
悖论的四个层次
个人层:Jack Clark 嘴里说"要刹车",公司同时发布"RSI 路线"——脚踩油门。公司层:Anthropic 一边被 NSA 拿去做网络攻击,一边开源防御框架——框架开源意味着防守方拿到,也意味着攻击方拿到。产业层:Anthropic 喊刹车的同时,谷歌悄悄删掉了"人工监督"的承诺——整个行业都在退场,没有人接棒。社会层:L'Obs 6 月 4 日的评论说得最清楚,AI 在社会里的位置不能只由几家科技巨头决定,但决定权一直在巨头手里。这四层不是独立的——它们是同一种权力的四个面,技术演示出来是道,落到合同里是术,争抢的是话语权。AI 安全的核心议题不是技术,是术的分配。
不是悲观,是话语真空
"AI 安全"这四个字到 2026 年 6 月已经出现了严重的语义通货膨胀:它在 NSA 的合同里是技术许可,在 Anthropic 的博客里是公司叙事,在 BBC 的节目里是公共警示,在谷歌的公关里是可以被悄悄删除的承诺。同一个词在四个地方指四件事,没有一个地方真的承担它的字面重量。
这跟达利欧在《国家为什么会破产》里讲过的债务循环是同构的——市场对"安全资产"的需求越高,发行方越有动力把任何资产都贴上"安全"标签,标签多了"安全"这个词本身被稀释到没有意义。Anthropic 现在的处境就是"AI 安全"版的次贷危机前夜。
不对,这个类比有点过——准确说是次贷危机的早期信号,还没到崩塌,但路径已经画出来了。
换句话说,谁嗓门最大,谁定义安全。
反者道之动
道家讲"反者道之动"——事物走向它的反面,是规律本身。Anthropic 的故事把这句话翻译得清清楚楚:它越强调安全,就越被纳入不安全用途。不是因为它虚伪,是因为"安全"这个标签在权力场里会自动磁化——谁有最强的能力,谁就同时被最强的需求拉走。
NSA 选 Mythos 不是因为 Mythos 道德败坏,恰恰相反,是因为 Mythos 是市场上最被信任的"安全"模型。在进攻性网络行动这个场景里,最被信任意味着最难被识别——这是悖论的核心。
毛泽东的"纸老虎"
毛泽东在 1946 年跟斯特朗讲"一切反动派都是纸老虎"的时候,说的是看着吓人、本质是虚的。Anthropic 不是纸老虎——它的能力是真实的,安全叙事也是真实的,问题是这两个真实正在相互拆台。
当你把"安全"和"能力"同时推到极致,它们会进入一种奇异的相持:你越证明自己安全,别人越敢把最危险的活交给你;你越证明自己危险,越需要强调自己的安全承诺——这是当代版的"自我实现的预言",只不过方向是反的。这话看起来很反直觉,但拆开看其实是结构性的,不是某个人的选择,是 4 个层次的力量同时拉扯的结果。
开源不是中立
一个被忽略的细节:defending-code-reference-harness 是开源的。社区评论里 Simonw 算了一笔账,每次跑用 Opus 几百美元、用 Mythos 几千美元,tptacek 干脆说"这是木工夹具,最好自己造"——没人讨论的是,这个框架一旦开源,对攻击方和防守方是平等的。
Anthropic 选择开源可能出于真诚的"放大防守方能力"动机,但结果是攻防两端同时被放大。这不是道德问题,是技术扩散的非对称性:NSA 用 Mythos 攻击的成本,比一个印度安全研究员用 defending-code-reference-harness 找漏洞的成本,只低不高。
这意味着什么
5 条新闻、4 个层次、1 个真空。AI 安全不是技术议题,是权力议题——技术本身没有"安全"或"不安全",它只有"被谁用"和"用在哪"。当一家公司同时被纳入 NSA 的进攻性合同、自主武器的法律纠纷、开源防御工具的扩散、AI 安全的自身警告清单——它就不再是一家公司,它是整个"AI 安全"这个概念正在失效的样本。Anthropic 5 条新闻 5 个证据,加起来是一句诊断:
"AI 安全"这个短语,到 2026 年中,已经从治理目标变成营销话术,从营销话术变成法律责任的挡箭牌。它在被消耗殆尽。
留给读者一个问题:如果"AI 安全"这个词已经空了,我们用什么新词来接住它?
参考来源:
- Horizon Daily 2026-06-05(#1, #2, #14, #15, #17, #27)
- Financial Times - 美国国家安全局使用 Anthropic Mythos AI 进行网络攻击
- BBC Newsnight - Anthropic 联合创始人 Jack Clark 警告 AI 需要"刹车踏板"
- Anthropic Institute - 递归自我改进进展报告
- Simon Willison - 谷歌要求 404 Media 删除人工监督承诺
- L'Obs - AI 辩论不能只留给科技巨头