当 AI 学会「做梦」：Anthropic 的 Dreaming 机制如何让 Agent 从工具变成学徒

2026 年 6 月 1 日，Anthropic 在 Claude 官方博客上发布了一篇更新公告。标题很朴素：「New in Claude Managed Agents: dreaming, outcomes, and multiagent orchestration」。

但如果你仔细读公告中的一段话，会发现 Anthropic 悄悄宣布了 AI Agent 历史上一个里程碑式的机制：

"Dreaming is a scheduled process that reviews your agent sessions and memory stores, extracts patterns, and curates memories so your agents improve over time."

翻译成大白话：AI Agent 会在「不工作」的时候回顾自己的历史，找到规律，整理记忆，然后在下一次工作时变得更聪明。

Anthropic 没有用「元学习」或「持续学习」这种技术术语。他们选了「Dreaming」——做梦。这个命名的背后，是对 AI 认知架构的一次根本性重新想象。

一、Dreaming 是什么

Dreaming 是一套自主记忆管理系统。Agent 在工作过程中积累了大量的上下文——对话历史、工具调用结果、代码执行输出、用户偏好。Dreaming 周期性地扫描这些积累，做三件事：

Extract patterns（提取模式）：用户总是用什么格式写 commit message？每次代码 review 时用户最在意什么问题？哪些类型的任务 Agent 第一次做不好但第二次就能做好？
Curate memories（整理记忆）：把碎片化的经验组织成结构化的知识条目——不是保存原始对话，而是保存「学到的东西」。
Self-improve（自我改进）：在下一次执行类似任务时，Agent 可以调用整理过的记忆，表现更好。

Anthropic 的数据：实测任务成功率提升高达 10 个百分点。

二、为什么叫「Dreaming」？

人类的睡眠在记忆巩固中扮演核心角色。白天学到的信息在睡眠中被重新激活、整合、筛选——重要的被保留，不重要的被丢弃。

Anthropic 的 Dreaming 机制模仿了同一个模式：工作阶段（Wake）执行任务积累上下文 → 休眠阶段（Dream）回顾、提取、整理 → 改进阶段（Next Wake）利用整理过的记忆提升表现。

这意味着 Anthropic 不再把 Agent 视为「无状态的函数调用」，而是视为有记忆、会反思、能进化的认知实体。这是一个从工具到学徒的范式转移。

同期 Peter Steinberger 在教 Codex 做 QA 助手——让 Agent 自己写测试、自己跑测试、自己开 PR。Dreaming 让 Agent 自我反思，Steinberger 让 Agent 自我验证。两者合在一起，构成了 Agent 认知闭环的完整拼图：执行 → 验证 → 反思 → 改进 → 再执行。

三、配套的两个机制

Dreaming 不是孤立的。Anthropic 同时发布了两套配套机制：

Outcomes：从「怎么做」到「做成什么样」

用户定义「什么是成功」，Agent 自己迭代直到达标。一个独立的 Grader 在独立上下文中评估 Agent 的输出，不受 Agent 自身推理偏差的影响。实测数据：docx +8.4%，pptx +10.1%。

Multiagent Orchestration

一个 Leader Agent 接收复杂任务，拆分为子任务，并行委托给专业子 Agent。Netflix 用它并行分析数百个构建日志。Spiral 用它从 Haiku 委托给 Opus 子代理进行并行写作。WiseDocs 速度提升 50%。

三者合在一起：Dreaming 让 Agent 随时间变聪明，Outcomes 让 Agent 自我纠错，Multiagent 让 Agent 并行协作。

四、Harvey 的 6 倍提升：真实世界的验证

Anthropic 公告中最关键的案例：

"Harvey 用 Dreaming 记忆工作流程和工具技巧，完成率提升约 6 倍。"

Harvey 是一家法律科技公司。在法律领域，每个案件有独特的程序要求和引用规范。通用 Agent 第一次做法律文件成功率很低。Dreaming 后在每一次失败中提取模式——格式、引用、程序——下一次调用这些记忆。第三次、第五次、第十次——每一次都比上一次更好。

6 倍意味着什么？一个律师第一天信任 Agent 完成 10% 的工作，一个月后可能信任它完成 60%。信任不是一次性建立的——信任是 Dreaming 在每一次迭代中积累的。

五、深层含义：Agent 正在获得「经验」

在 Dreaming 之前，Agent 能力完全取决于底层模型。GPT-5.5 比 GPT-5 强是因为 OpenAI 做了更好的 post-training——但 Agent 本身不会因为「用得多了」而变强。

Dreaming 改变了这个假设：Agent 能力 = 底层模型能力 + Agent 层面的经验积累。

这带来两个后果：

时间变成了护城河。一个被某家公司深度使用了 6 个月的 Agent（积累了数万次交互经验），和一个刚初始化的 Agent——即使使用相同的底层模型——表现会有显著差异。
Agent 从「一次性交付」变成「持续增值」。卖 Agent 不再像卖软件。它像卖学徒——初始能力一般，但越用越强。客户留存率会更高，因为切换成本不仅是迁移设置，还包括丢失积累的经验。

这又回到了 Garry Tan 在同一天的「Memory 主权」论点。Dreaming 让 Agent 记忆变成一种真正的资产。如果你不能带走它，你就是平台的佃农。

结语

Anthropic 把它的记忆系统命名为 Dreaming，而不是 Memory Consolidation 或 Pattern Extraction。这个命名的选择本身就是一个信号。

在神经科学中，「为什么我们需要睡眠」仍然是一个开放问题。最主流的假说是：睡眠是记忆巩固的时间窗口——大脑在离线状态下重播白天的经验，提取关键信息，舍弃噪音。

Anthropic 用同一个隐喻描述 AI。Agent 需要「离线时间」来消化经验、理解模式、自我改进。 没有 Dreaming 的 Agent 是一个永远在跑但从来不停下来想一想自己学到了什么的工人。有 Dreaming 的 Agent 是一个会睡觉、会反思、会在次日更好的学徒。

本文基于 AI Builders Digest 2026-06-01 撰写。核心信源：Anthropic Claude Blog "New in Claude Managed Agents"、Harvey 案例、Peter Steinberger 推特、Dan Shipper 推特、Garry Tan 推特