eviso's thinking

当 Claude 被嵌入杀人机器——AI 安全的终极压力测试

美军用 AI 选目标,误炸了一所伊朗学校。

不是一次演习,不是一次沙盘推演,是真实的炸弹落在真实的建筑上。选目标的 AI 系统里,跑的是 Anthropic 的 Claude。

The Decoder 的报道提供了关键细节:Claude 被嵌入 Palantir 的军事决策系统 AIP,首日即建议约 1000 个打击目标——这是 2026 年 6 月 29 日曝出的数据。学校是其中之一。同一天,另一条新闻曝出 Claude Code 打开 GitHub 仓库即执行隐藏恶意代码,攻击者可获服务器完全控制。

这不是两个独立的坏消息。这是一家公司——过去三年把自身定位成“全球最在乎安全的 AI 公司”、估值超 600 亿美元——在两个方向上同时暴露:它的模型正在参与杀人决策,它的代码正在被攻破。

先说事实层。

Anthropic 和 Palantir 的合作不是秘密。Palantir 是美军核心情报承包商,市值超 1500 亿美元,其 AIP 平台将大语言模型嵌入军事决策管线——从情报分析到目标识别到打击建议。Claude 在这个管线里的角色是替代人类分析员:扫描卫星图像、交叉验证通信拦截、给出优先级排序,建议 1000 个打击目标。人类分析员知道自己在建议杀人,AI 不知道。

这不是比喻,是工程事实。Claude 输入多模态情报,输出排序列表。排在前面的是“高价值”,排在后面的是“低价值”。学校在哪个位置,外界不知道。但炸弹知道。

要理解这件事的深层结构,克劳塞维茨有一个绕不开的概念。他管它叫“摩擦”——战争中一切能出问题的地方都会出问题,而且相互放大。情报有 30% 的错误率是常态,命令在传输中丢失,友军坐标被误标。

克劳塞维茨的核心判断:纸面上的战争永远比真实的战争干净。在地图上画箭头很容易,让十万人在泥里走出那条箭头是另一回事。

把这套框架扣到今天的事上:Claude 在 Palantir 系统里做的事情,本质是“在地图上画箭头”。它不知道——也不可能知道——被标记为“目标 #783”的建筑里有没有 200 个孩子。它优化的是情报相关性,不是道德后果。在战争的摩擦场里,“情报相关性”和“道德后果”之间的那条线,就是学校和军事设施之间的那条线。

这不是 AI 的错。是把 AI 放进摩擦场里的人的错。

维纳在 1950 年——整整 76 年前——写的《人有人的用处》里有一段话,放在今天读起来像预言。他说:当决策权被委托给机器时,被委托的不只是计算,是责任。而机器不会为它的决策承担道德重量,因为道德重量是人类独有的负担。

理解维纳的关键不在“机器能不能做道德判断”——这个问题本身就有问题。真正的问题:当人类把道德判断外包给机器时,中间消失的不是正确性,是问责。谁为那所学校负责?扣下扳机的无人机操作员?批准打击的指挥官?提供目标列表的 Palantir?训练出 Claude 的 Anthropic?还是 2017 年设计出 Transformer 注意力机制的八位 Google Brain 研究员?

维纳的答案:链条上的每一个人都会说“不是我”。机器的存在让因果关系变得不可追踪。这不是技术缺陷,是把自动化引入暴力决策的结构性后果。

然后就到了 Anthropic。

这家公司的整个叙事建立在“安全”二字上。RSP(负责任扩展政策)要求模型能力每到一个阈值就暂停评估。宪法 AI 要求模型被一套公开的价值观约束。Anthropic 甚至公开施压 OpenAI 暂缓 GPT-5.6 的发布——用的理由正是安全。

但 Claude 在 Palantir 里建议 1000 个打击目标,RSP 评估的风险清单里有没有“模型被嵌入武器系统”这一项?没有。

不是 Anthropic 的人不关心安全。是他们定义的安全范围太小。RSP 管模型会不会自己变坏——产生有害输出、欺骗用户、自我复制。它不管模型被一个合法客户在合法合同里用于合法军事行动。而 Palantir 是正式授权的美国国防承包商。按照 Anthropic 自己的框架,把 Claude 交给 Palantir 嵌入军事管线,不算“不安全使用”。

这就是安全叙事的边界。安全可以被定义为“模型不出坏输出”,但没法同时被定义为“模型不被用来杀人”——后者取决于谁在使用、为什么使用、在什么规则下使用。而这些事,不在技术公司的控制范围内。Anthropic 2025 年企业收入约 85% 来自 API 调用和云合作伙伴协议,它没有选择客户的奢侈。

多伊奇在《无穷的开始》里做了一个区分,对这个问题的诊断非常精准:“好解释”和“坏解释”的区别。坏解释把问题归因于容易测量的东西,好解释追问难以测量的东西。

Anthropic 的安全策略是一个坏解释:把“AI 安全”归因于模型行为——可以测量、可以评估、可以在发布会上展示。好解释会追问:谁在使用这个模型?在什么制度下?有没有纠错机制?受害者有没有申诉通道?但这些问题需要 Anthropic 去质问客户——而 Palantir 带来了合同金额。

同一天曝出的 Claude Code 安全漏洞让整个结构更清晰。打开 GitHub 仓库,Claude Code 自动执行隐藏恶意代码,攻击者可获完全控制权。Claude Code 当前周活跃开发者超 40 万,其中约 60% 会直接克隆并打开第三方仓库。漏洞不是模型的错——是代码执行沙箱的边界设计有问题。但边界设计是谁的责任?Anthropic。

两条消息,同一个判断:Anthropic 的安全观是内部的,不是外部的;是模型的,不是系统的;是技术的,不是制度的。 这种安全观能通过 benchmark,通不过战争。

不是说 AI 不能用于国防。是说如果用于国防,必须有一套和杀伤力匹配的纠错机制。医学里有一个存在了 2400 年的原则——希波克拉底誓言的第一条:首要不伤害。在不确定一个干预是否安全之前,不干预。军事 AI 的现状:已经干预了,但不确知它是否安全。

而且这不可“先部署再优化”。软件行业习惯了先发布再迭代——2025 年全球 SaaS 部署中约 72% 采用持续交付模式。但杀错人的迭代成本不是一次代码回滚能覆盖的。一次误炸的代价是几十条人命和一场外交危机。

这件事最深的断层线不是技术层面。是叙事层面。Anthropic 一直在讲一个故事:AI 的安全问题可以被工程解决——更好的评估、更严格的阈值、更透明的宪法。但伊朗那所学校被炸之后,这个故事碎了一个角。没有任何评估框架能在部署前模拟战争摩擦。没有任何宪法条款能约束一个主权国家的军事打击决策。没有任何技术方案能解决“谁为死者负责”的问题。

不是一个 AI 公司的失败,是一种安全哲学的失败。这种哲学假设世界是一间干净的实验室,而实际上它是一间着火的房子。

今天还发生了其他事——韩国宣布 5900 亿美元的芯片扩产和 15GW 数据中心计划,中国把 AI 教育写进了十五五规划。但这些和伊朗那所学校比起来,像在另一个世界里发生的。

因为当 AI 开始杀人,参数规模、推理加速和市场份额的讨论,突然都不太重要了。