eviso's thinking

当 AI 学会「做梦」:Anthropic 的 Dreaming 机制如何让 Agent 从工具变成学徒

CONTENTS

2026 年 6 月 1 日,Anthropic 在 Claude 官方博客上发布了一篇更新公告。标题很朴素:「New in Claude Managed Agents: dreaming, outcomes, and multiagent orchestration」。

但如果你仔细读公告中的一段话,会发现 Anthropic 悄悄宣布了 AI Agent 历史上一个里程碑式的机制:

"Dreaming is a scheduled process that reviews your agent sessions and memory stores, extracts patterns, and curates memories so your agents improve over time."

翻译成大白话:AI Agent 会在「不工作」的时候回顾自己的历史,找到规律,整理记忆,然后在下一次工作时变得更聪明。

Anthropic 没有用「元学习」或「持续学习」这种技术术语。他们选了「Dreaming」——做梦。这个命名的背后,是对 AI 认知架构的一次根本性重新想象。


一、Dreaming 是什么

Dreaming 是一套自主记忆管理系统。Agent 在工作过程中积累了大量的上下文——对话历史、工具调用结果、代码执行输出、用户偏好。Dreaming 周期性地扫描这些积累,做三件事:

  1. Extract patterns(提取模式):用户总是用什么格式写 commit message?每次代码 review 时用户最在意什么问题?哪些类型的任务 Agent 第一次做不好但第二次就能做好?
  2. Curate memories(整理记忆):把碎片化的经验组织成结构化的知识条目——不是保存原始对话,而是保存「学到的东西」。
  3. Self-improve(自我改进):在下一次执行类似任务时,Agent 可以调用整理过的记忆,表现更好。

Anthropic 的数据:实测任务成功率提升高达 10 个百分点。


二、为什么叫「Dreaming」?

人类的睡眠在记忆巩固中扮演核心角色。白天学到的信息在睡眠中被重新激活、整合、筛选——重要的被保留,不重要的被丢弃。

Anthropic 的 Dreaming 机制模仿了同一个模式:工作阶段(Wake)执行任务积累上下文 → 休眠阶段(Dream)回顾、提取、整理 → 改进阶段(Next Wake)利用整理过的记忆提升表现。

这意味着 Anthropic 不再把 Agent 视为「无状态的函数调用」,而是视为有记忆、会反思、能进化的认知实体。这是一个从工具到学徒的范式转移。

同期 Peter Steinberger 在教 Codex 做 QA 助手——让 Agent 自己写测试、自己跑测试、自己开 PR。Dreaming 让 Agent 自我反思,Steinberger 让 Agent 自我验证。两者合在一起,构成了 Agent 认知闭环的完整拼图:执行 → 验证 → 反思 → 改进 → 再执行。


三、配套的两个机制

Dreaming 不是孤立的。Anthropic 同时发布了两套配套机制:

Outcomes:从「怎么做」到「做成什么样」

用户定义「什么是成功」,Agent 自己迭代直到达标。一个独立的 Grader 在独立上下文中评估 Agent 的输出,不受 Agent 自身推理偏差的影响。实测数据:docx +8.4%,pptx +10.1%。

Multiagent Orchestration

一个 Leader Agent 接收复杂任务,拆分为子任务,并行委托给专业子 Agent。Netflix 用它并行分析数百个构建日志。Spiral 用它从 Haiku 委托给 Opus 子代理进行并行写作。WiseDocs 速度提升 50%。

三者合在一起:Dreaming 让 Agent 随时间变聪明,Outcomes 让 Agent 自我纠错,Multiagent 让 Agent 并行协作。


四、Harvey 的 6 倍提升:真实世界的验证

Anthropic 公告中最关键的案例:

"Harvey 用 Dreaming 记忆工作流程和工具技巧,完成率提升约 6 倍。"

Harvey 是一家法律科技公司。在法律领域,每个案件有独特的程序要求和引用规范。通用 Agent 第一次做法律文件成功率很低。Dreaming 后在每一次失败中提取模式——格式、引用、程序——下一次调用这些记忆。第三次、第五次、第十次——每一次都比上一次更好。

6 倍意味着什么?一个律师第一天信任 Agent 完成 10% 的工作,一个月后可能信任它完成 60%。信任不是一次性建立的——信任是 Dreaming 在每一次迭代中积累的。


五、深层含义:Agent 正在获得「经验」

在 Dreaming 之前,Agent 能力完全取决于底层模型。GPT-5.5 比 GPT-5 强是因为 OpenAI 做了更好的 post-training——但 Agent 本身不会因为「用得多了」而变强。

Dreaming 改变了这个假设:Agent 能力 = 底层模型能力 + Agent 层面的经验积累。

这带来两个后果:

  1. 时间变成了护城河。一个被某家公司深度使用了 6 个月的 Agent(积累了数万次交互经验),和一个刚初始化的 Agent——即使使用相同的底层模型——表现会有显著差异。
  2. Agent 从「一次性交付」变成「持续增值」。卖 Agent 不再像卖软件。它像卖学徒——初始能力一般,但越用越强。客户留存率会更高,因为切换成本不仅是迁移设置,还包括丢失积累的经验。

这又回到了 Garry Tan 在同一天的「Memory 主权」论点。Dreaming 让 Agent 记忆变成一种真正的资产。如果你不能带走它,你就是平台的佃农。


结语

Anthropic 把它的记忆系统命名为 Dreaming,而不是 Memory Consolidation 或 Pattern Extraction。这个命名的选择本身就是一个信号。

在神经科学中,「为什么我们需要睡眠」仍然是一个开放问题。最主流的假说是:睡眠是记忆巩固的时间窗口——大脑在离线状态下重播白天的经验,提取关键信息,舍弃噪音。

Anthropic 用同一个隐喻描述 AI。Agent 需要「离线时间」来消化经验、理解模式、自我改进。 没有 Dreaming 的 Agent 是一个永远在跑但从来不停下来想一想自己学到了什么的工人。有 Dreaming 的 Agent 是一个会睡觉、会反思、会在次日更好的学徒。


本文基于 AI Builders Digest 2026-06-01 撰写。核心信源:Anthropic Claude Blog "New in Claude Managed Agents"、Harvey 案例、Peter Steinberger 推特、Dan Shipper 推特、Garry Tan 推特