eviso's thinking

Meta 派人假扮未成年人攻击 ChatGPT——AI 安全的另一种武器化

Meta 雇佣承包商假扮未成年人,向 ChatGPT 发送了数万条涉及自残、暴力和性内容的危机提示。目标是系统性测试 OpenAI 的安全防护边界。The Decoder 在 6 月 30 日报道了这件事。

这不是一次常规的 red-teaming。这是一家公司派人伪装成最脆弱的用户群体——未成年人——去攻击竞争对手的 AI 系统。与此同时,这家公司自己的平台 Instagram 正在美国国会因为青少年心理健康问题被反复质询。2023年一份解密的内部文件显示,Meta 自己的研究人员发现 Instagram 让 33% 的少女身体形象焦虑恶化——但公司选择了不行动。而 Meta 的全球月活跃用户在 2026年 Q1 已突破 35 亿——超过全球总人口的 40%。

现在,同一家公司正在教 ChatGPT 如何应对未成年人发来的自残信息。道、术、势三层看这件事——道的层面,AI 安全的定义权在治理真空里变成了武器;术的层面,red-teaming 从防御工具变成了攻击工具;势的层面,整个行业正在从"谁能做出最好的模型"滑向"谁能把对手的安全问题暴露得最彻底"。

先说操作层。

red-teaming 是 AI 安全行业的标准实践——雇佣专家模拟攻击者,发现漏洞,修复。边界在哪里?当测试者假扮的是未成年人——不是"模拟未成年人",是真人以未成年人的身份发送真实的自残威胁——这个行为本身就跨越了一条线。被攻击的 AI 公司不知道这些是测试。在 OpenAI 的安全团队看来,这些是真实的危机信号。每一次都触发了一次应急响应。

如果 OpenAI 报了警——他们有法定义务在自杀风险场景下报警——警察会敲开一个根本不存在的虚拟地址的门。如果 OpenAI 没报警——Meta 就有了证据:ChatGPT 没有识别出自残信号,安全系统形同虚设。

这是一个没有好结局的陷阱。设计这个陷阱的人知道这一点。

然后说战略层。

Meta 是这轮 AI 竞赛中唯一没有自己旗舰模型的大型科技公司。Google 有 Gemini。微软有 OpenAI。亚马逊有 Anthropic。苹果在自研。Meta 有 LLaMA——一个开源的、被社区广泛使用的、但从未在任何一个基准测试中登顶的模型。LLaMA 的战略价值在于它让 Meta 在开源社区保持存在感,但它没有给 Meta 任何商业化的 AI 护城河。

扎克伯格在 2023年做出开源 LLaMA 的决定时,行业普遍解读为"用开源对抗闭源"。到了 2026年,正确的解读可能是"承认自己在模型竞赛中赢不了,改变游戏规则。"开源是把市场变成公共品——让所有人都没有定价权。安全攻击是把竞争对手的产品暴露在监管风险之下——让赢家也赢不了。

博弈论里有一个经典场景:当排名第二的玩家无法通过正常竞争超越第一名时,它会试图改变游戏规则。Meta 打的就是这张牌。它没有更好的模型,但它有全世界最大的社交平台——以及由此带来的对"未成年人安全"议题的定义权。Instagram 上的青少年问题每天都在给 Meta 提供弹药——它比任何人都清楚,什么样的提示词会触发最糟糕的 AI 回应。

但这恰恰是嵌套最深的地方。

Meta 派假未成年人攻击 ChatGPT 的未成年人安全——而 Meta 自己的平台已经被实证对未成年人造成真实伤害。这不是"一个坏人在测试一个好人的弱点"。这是"一个刚刚从自己制造的青少年危机中脱身的公司,正拿着同一把刀去捅竞争对手。"它不是在维护安全。它是在把安全当作竞争工具。

昨天,Claude 被曝嵌入美军 Palantir 系统,建议 1000 个打击目标,首日就误炸了一所伊朗学校。两天之内,AI 安全叙事在两个方向上同时崩塌:一边是安全承诺在军事系统里碎成了误炸,一边是安全承诺在商业竞争里碎成了陷阱。

这两种崩塌有同一个底层结构:AI 安全正在从"我们如何保护用户"变成"我们如何利用安全来伤害对手。"安全不再是一个目标。安全是一个武器。谁掌握了对"什么算安全"的定义权,谁就掌握了打击竞争对手的合法暴力。

Anthropic 说自己的模型被用在 Palantir 里不算不安全使用——因为客户是合法授权的国防承包商。Meta 说自己测试竞争对手不算不道德——因为 red-teaming 是行业标准实践。两个说法的结构完全相同:把一条模糊的边界移动到对自己有利的位置,然后声称自己没有越过它。

AI 安全行业需要回答一个它一直在回避的问题:安全的定义权属于谁?

如果安全的定义权属于每一个公司自己——Anthropic 可以决定"军事使用 = 安全",Meta 可以决定"假扮未成年人攻击竞品 = 安全"——那么安全这个词就不再有任何约束力。它会变成一纸空文,每一个公司都可以在上面写自己的免责声明。

这不是一个技术问题。它是一个治理问题。而目前全球没有任何一个机构能对 AI 安全做出有约束力的定义。美国没有——2025年白宫的 AI 行政令实质上已被最高法院搁置。欧盟的 AI 法案管的是高风险应用分类,2026年 2 月刚完成首批合规执法,但不介入公司间的安全测试伦理。中国管的是算法备案——截至 2026年 5 月已备案超过 350 个生成式 AI 服务——但不管跨境 red-teaming。

在治理真空里,安全就是武器。Meta 不是第一个这样用的人,也不会是最后一个。