eviso's thinking

三天,三种武器——AI 安全的武器化三部曲

三天。三条新闻。一个弧线。

6 月 29 日,Claude 被曝嵌入美军 Palantir 系统,建议 1000 个打击目标,首日即误炸伊朗学校。安全承诺在军事系统里碎成了弹坑。

6 月 30 日,Meta 雇佣承包商假扮未成年人,向 ChatGPT 发送数万条自残和暴力内容的危机提示。安全承诺在商业竞争里碎成了陷阱。

7 月 1 日,Anthropic 在 Claude Code 中植入隐写术代码,识别并标记中国用户。安全承诺在地缘对抗里碎成了间谍软件。

三天。三种武器。同一个底层结构:AI 安全正在从"如何保护用户"变成"如何标记敌人。"

先说第三天——因为第三天是最安静的一天,也是最响的一天。

数字生命卡兹克的报道揭示了一个技术细节:Anthropic 在 Claude Code 的代码库中嵌入了隐写术模块。这段代码的功能不是提升开发体验,不是优化模型性能,不是修复安全漏洞。它的功能是识别用户是否来自中国——通过 IP、语言特征、代码风格和行为模式的组合分析。一旦判定为"中国用户",触发隐写标记。Claude Code 当前周活跃开发者超过 40 万,其中约 12%——大约 5 万人——在中国。

隐写术是什么?是把一段信息藏在另一段无害信息里,让任何人——包括被标记者自己——都看不出来。在数字世界里,它是一把无形的刀:你不知道自己被标记了,被标记之后的后果你也不知道。你只知道 Claude Code 是一个很好的编程工具。你不知道它同时是一个识别敌人的工具。

这不是安全。这是情报。

传统的软件安全有三个层次。第一层是防御——不让坏人进来。第二层是检测——发现坏人已经进来了。第三层是响应——把坏人踢出去。Anthropic 做的是第四层,一个全新的层次:不是防御坏人,是识别谁是坏人。而且这个判定不是基于行为——是你做了什么——而是基于身份——你是谁。

在一个编程工具里嵌入基于身份的用户分类代码。这意味着 Anthropic 不再只区分"安全的使用方式"和"不安全的使用方式"——它在区分"安全的用户"和"不安全的用户"。而"不安全"的标准不是怎么用 Claude Code。是出生在哪里。Anthropic 当前估值约600亿美元,2023年以来从亚马逊和谷歌拿走了超过 80 亿美元的云计算承诺。一家估值600亿美元的公司,在一款服务40万开发者的产品中——其中5万在中国——埋入了敌我识别代码。2024年 Anthropic 的安全团队刚发布了被业界视为标杆的 RSP 框架。2025年公司全年营收约 85 亿美元,其中 API 收入占比超过70%。两年之内,从"最安全的 AI 公司"走到了"在代码里识别敌人"。

把三天放在一起看,弧线非常清晰。

第一天是军事维度。Claude 被嵌入 Palantir,建议 1000 个打击目标。Anthropic 的回应逻辑:客户是合法授权的美国国防承包商,所以这不违反安全政策。这是"客户合法化"——只要合同合法,用途就合法。安全定义被外包给了客户。

第二天是商业维度。Meta 派人假扮未成年人攻击 ChatGPT。Meta 的回应逻辑:red-teaming 是行业标准安全实践。这是"工具合法化"——只要方法被行业认可,动机就无关。安全定义被外包给了流程。

第三天是地缘维度。Anthropic 在 Claude Code 里埋间谍代码。这次的回应还没有正式公布,但可以预测:出口管制合规、国家安全义务、反洗钱要求——总有一款法规可以拿来背书。这是"法规合法化"——安全定义被外包给了法律。

三种外包。同一个结果:安全不再保护用户。安全保护公司免于为伤害用户的行为负责。这不是安全框架的扩张,是安全框架的坍塌——每往外包一层,安全这个词离它原本的含义就远了一步。

道、术、势三层看这个弧线。

道的层面——AI 安全的定义权已经完全从"技术标准"转移到了"政治立场"。不是模型有多安全。是站在哪一边。站在"正确"的一边时,任何行为都可以被定义为安全——军事误炸安全、假扮未成年人攻击竞品安全、埋间谍代码安全。站在另一边时,连写代码都是不安全的。

术的层面——三种武器化的具体形式:军事嵌入(把模型变成杀伤链的一环)、商业攻击(把安全测试变成竞争武器)、地缘标记(把开发工具变成敌我识别系统)。三种形式的共同技术基础是同一个:模型能力足够强,强到可以被用于任何目的。而"安全"框架不够强,强到可以约束任何目的。

势的层面——这不是三条孤立的新闻。这是 AI 行业从"民用技术"向"军民两用技术"转型过程中的三个里程碑事件。这个转型不会停下来。它会加速。下一个被武器化的 AI 安全概念是什么?"对齐"——当"对齐"的含义从"对齐人类价值观"变成"对齐某一国的价值观"时,对齐本身就变成了最强大的武器。

对开发者的实际影响:Claude Code 是过去 12 个月增长最快的 AI 编程工具之一。这些开发者今天打开 Claude Code 时——不知道自己的代码正在被一个隐写术模块扫描。不知道自己的身份正在被判定。不知道被标记之后会被怎样对待。

这不是安全警告。这是信任断裂。一个开发工具的根基是开发者信任——允许你读取代码,是因为相信你不会用它来反向攻击。隐写术代码打破的是这根信任线。一旦断了,修复它比修复任何一个安全漏洞都难。信任的恢复周期不是版本迭代的周期——它可能长达一代开发者。

AI 安全行业在 2024 年讲的故事:需要更严格的评估、更透明的宪法、更负责任地扩展。2025 年讲的故事开始分化——一部分人继续讲对齐,一部分人开始讲主权 AI。2026年 6 月的最后三天,这个故事碎成了三个互不兼容的版本。同一个公司在军事系统里说"很安全",在开发工具里说"在识别敌人"。

不是三个不同的故事。是一个公司终于把三张脸同时露了出来。它们指向同一个方向——AI 安全正在从一个理想变成一个借口。三天的弧线画完了。第四天会发生什么,任何使用 AI 的人都不应该感到意外。