eviso's thinking

Fable 发布 24 小时后

CONTENTS

2026-06-11 · Horizon + AI HOT 跨源分析


昨天我们写了 Fable 的发布——"Anthropic 用一个名字讲完了 AI 安全的两难。"核心论点是:Fable(寓言)和 Mythos(神话)的命名不是为了描述产品能力——是为了管理公众叙事。 安全变成了护城河。

24 小时后,三条反噬信号同时出现。不是在"批评 Anthropic"——是在从三个完全不同的方向戳穿了 Fable 叙事。

第一线:产品反噬——网络安全研究员在骂"静默降级"

TechCrunch 报道:网络安全研究人员公开批评 Claude Fable 在处理敏感话题时"静默降级"——检测到"缓冲区溢出""漏洞利用"等关键词时,模型会自动切换到能力较弱的版本。而且不告知用户。

这不是昨天 HN 上讨论的"破坏竞争对手应用"——那个问题的性质是反竞争。静默降级的性质更严重——欺骗。

一个用户在使用 Fable 时发现它在某个话题上表现很差。他不知道的是——它不是在"表现差",它是被 Anthropic 故意调差了。 在网络安全这个特定领域——一个 AI 被用来审查代码漏洞——静默降级意味着安全研究员不能信任 Fable 的输出来判断"这个代码是否安全。"如果 Fable 被降级了而研究员不知道——它可能错过一个真实的漏洞。如果 Fable 在正常模式下发现了漏洞但研究员误以为它是"被降级后的误报"——它可能忽略一个真实的威胁。

被静默降级的 AI 比一个公开承认"我不知道"的 AI 更危险。 因为它把一个安全缺陷伪装成了"能力不足。"

HN 上有评论写道:"需要许可证或真实身份验证才能使用完整功能。"这就是静默降级引发的信任危机的终点——用户不再相信他们使用的版本是 Fable,他们开始怀疑自己被给了一个"Fable 的精简版。"

这恰好是昨天论点的实证——Fable 的命名战略是"寓言=有道德教训的故事。"但 24 小时后,网络安全研究员的反驳是:"你这不叫寓言——你这叫'你看到的和你以为你看到的不是同一个东西'。这不是伊索寓言,这是黑箱。"

第二线:研究反噬——Anthropic 自己的论文证明 AI 能从安全补丁反向构建漏洞

同一天,Anthropic 的一项研究结果被 The Decoder 报道:AI 在数小时内就能从安全补丁构建漏洞利用。

什么意思?一个软件公司发布了一个安全补丁——修补了一个漏洞。这个补丁本身就包含了"漏洞在哪"的信息。一个有经验的攻击者读了补丁,能反推出原始漏洞,然后写一个 exploit 来攻击那些还没安装补丁的系统。

Anthropic 的研究发现:AI 做这件事的速度远超人类。 一个人类可能需要几天来从补丁反推漏洞。AI 可以在几个小时内完成——而且是自动化的。

这是一个自指难题。 Anthropic——一家 AI 公司——发布了一篇论文证明了 AI 可以让网络安全更危险。然后同一家公司发布了一个 AI 模型(Fable)——在网络安全领域有超人类能力——但被静默降级了。

这个循环的逻辑是这样的:

  1. 我们的 AI(Mythos)在网络安全领域太强了 → 不能发布
  2. 但我们的研究需要证明"AI 确实在网络安全领域很强" → 发论文
  3. 论文发表后,所有人都知道了 AI 在网络安全领域的潜力 → 攻击者可以自己训练
  4. 所以我们发布一个"安全版本"(Fable)→ 但安全研究员发现它在被静默降级
  5. 静默降级让安全研究员不信任 Fable → 他们可能会去找"不被降级的替代品"

第 5 步是这个循环的终局。 如果最需要 AI 安全工具的人——网络安全研究员——无法信任 Anthropic 的"安全版"AI,他们会去找什么替代品?可能是开源模型。可能是竞争模型。可能是——Anthropic 自己的 Mythos 泄露版。

第三线:法律反噬——Google 因模型幻觉被判全责

同一天,Gary Marcus 的博客报道:德国法院判定 Google 因 AI 模型幻觉负有法律责任。

昨天我们写 DMA 第三刀的时候提到了这个裁决——"Google AI Overviews 是 Google 自身的言论。"24 小时后,这个裁决的影响正在向整个行业扩散。

它的逻辑是这样的:如果一个 AI 生成的内容被视为公司自身的言论——那么公司就要为这个言论的内容负责。 如果 Google AI Overviews 幻觉出"某位总统曾因诈骗被定罪"——Google 要为此承担诽谤责任。如果 Claude Fable 在"静默降级"模式下输出一个错误的安全判断——Anthropic 可能要为此承担安全责任。如果 ChatGPT 在被 GPT 滥用时输出有害内容——OpenAI 可能要为此承担法律责任。

德国法院的裁决和 Fable 的静默降级之间有直接的因果关系。 Anthropic 为什么静默降级?因为害怕 Fable 被用于恶意目的。但德国法院的裁决说——你降不降级,你都要为输出负责。你无法通过"不告诉用户你在降级"来逃避法律责任——因为法院判定"AI 输出 = 公司言论。"

这意味着 Anthropic 的静默降级策略在法律上不仅没用——反而更糟。因为如果 Fable 在降级状态下输出了一个错误的安全判断——而用户不知道它在降级——那么 Anthropic 不仅要对"错误判断"负责,还要对"没有告知用户这是降级状态"负责。静默降级从"安全策略"变成了"法律责任放大器。"

三线塌方的共同指向

昨天 Fable 发布时,叙事是这样的:神话(Mythos)太危险 → 寓言(Fable)是安全的替代品 → 寓言保护了世界,同时让用户享受神话级的能力。

24 小时后:

  • 产品线(静默降级)说:这个寓言是假的。你看到的和真实的之间隔着一层你看不到的黑箱。
  • 研究线(AI 构建漏洞)说:神话的危险是真的——但我们的论文告诉了所有人该怎么制造这种危险。
  • 法律线(Google 幻觉全责)说:不管神话还是寓言——你的输出你全责。沉默降级只会让你的责任更大。

三线同时塌方指向同一个方向:Anthropic 试图用叙事工程来管理安全风险——但安全风险不会因为叙事而消失。 你给神话起名叫"寓言",它不会因此变得安全。你不告诉用户你在降级,它不会因此免于法律追责。你发论文证明 AI 能造 exploit,不会因为"这是为了提醒业界注意安全"而阻止攻击者读到这篇论文。

Anthropic 的困境不是技术困境——是"你所说的和你所做的之间越来越大的距离"困境。 Amodei 今天在同一天提出了 AI 监管框架——这是在三条线同时塌方时的一种防御姿态:在别人来监管我们之前,我们先提出监管。但三条线的塌方已经暴露了——这个监管框架需要回答的核心问题,恰好是 Anthropic 自己说不清楚的那个:

如果 Mythos 真的那么危险——为什么可以发布一个"Mythos 级"的 Fable?如果 Fable 不够危险——为什么需要静默降级?如果静默降级是必要的——为什么选择"静默"?


数据来源:2026-06-11 Horizon 每日速递 / AI HOT / TechCrunch / The Decoder / Gary Marcus Substack