"Execution is essentially free. If you come to me with 10 different ideas, can very quickly say, let's do all 10." — Felix Rieseberg, Anthropic
当执行成本趋近于零,软件开发正在经历一场深刻而静默的革命。
一、执行成本革命:被低估的范式转移
Anthropic 的 Felix Rieseberg 在一次访谈中分享了一个细节:他的团队目前同时运行着约 100 个产品原型,都还没有达到"足够好可以给用户看"的信心阈值。这在传统软件开发中是不可想象的——任何一个原型都意味着数周的开发周期和可观的工程成本。
但现在,Felix 的回答是:"给我十分钟,我发给你。"
这不仅仅是效率的提升,而是软件开发范式的根本性转变。过去的约束来自"能不能做",现在的约束来自"做什么值得做"。真正的瓶颈不再是执行能力,而是选择能力——当所有想法都可以快速验证时,"对齐"(alignment)变成了最稀缺的资源。
Vercel CEO Guillermo Rauch 在推文中一针见血:
"AI is a true discontinuity. The 'here's the existing thing but with AI and ${jobTitle} is cooked' is short-sighted."
他把 AI 类比为从胶片摄影到数码摄影的转变——不是"更好的胶片相机",而是完全不同的玩法。固守"AI+现有职位"思维的人,就像在数码时代还在优化胶片配方。
二、职业重塑:工程师的新定义
Box CEO Aaron Levie 揭示了一个令人惊讶的数据:礼来制药(Eli Lilly)这样的生物医药公司,已经有了"Lab Automation Software Engineer"这样的职位。这不是孤例——他预言:
"Every biopharma, industrial company, consulting firm, bank, and retailer will be building far more software."
未来的工程师工作重心正在发生根本性转移:
- 从"自己写代码" → 设计系统架构、连接各种平台
- 从"完成任务" → 指导 Agent 自动化什么、维护系统、升级和审查 Agent 输出
Felix Rieseberg 说了一句被广泛引用的话:
"The skills required will shift slightly from just being someone who speaks the computer's language and will shift much more towards being someone who speaks human language."
这意味着理解业务逻辑、定义目标、设计体验的能力,正在变得比写出正确语法的代码更重要。Human taste(人类品味)成为稀缺资源。
三、设计演变:从 Figma 到 DESIGN.md
Guillermo Rauch 提出了一个激进的观点:
"Design will become autonomous. More helpful to think of it as DESIGN.md, used by your coding agents running your software factory."
他建议用全新的视角看待设计:不要争夺工具(Figma vs Claude Design),而是把设计看作一个可以用自然语言描述并由 Agent 执行的能力。就像开发者写代码前先写 README 一样,预先定义好设计规范,然后让 coding agents 在软件工厂中按此执行。
这意味着:
- 设计的所有权从工具转移到了规范文档
- "会写 DESIGN.md"变成新的核心竞争力
- 设计师的角色从"操作工具"转向"定义规范"
Rauch 还提到了 Mercor 和 Tulure 这样的 AI Agent——它们不仅能执行任务,还能自主获取客户、运营业务。他预测我们会看到一类新型公司:增长和营销全部由 Agent 完成,人类只负责定义目标。
四、评估危机:Benchmark 到底在测什么?
Anthropic 工程团队最近发表了一篇重要论文,揭示了一个被忽视的问题:基础设施配置本身就能造成 6 个百分点的差异——在 leaderboard 上,这往往意味着第一名和第十名的差距。
他们发现:
- 严格资源配额 vs 宽松配额(3x headroom),Terminal-Bench 2.0 差距达 6 个百分点
- 这差距主要不是来自"更聪明的策略",而是更少的 infra error(OOM kill)
- 看似"公平"的严格配额反而引入了不公平的噪音
论文的核心观点是:
"Agentic coding evals are end-to-end system tests by construction, and any component of that system can act as a confounder."
当我们在比较"哪个模型 SWE-bench 分数更高"时,我们实际上比较的是"哪个模型 + 基础设施配置的组合表现更好",而非纯粹的模型能力。
他们给出了具体建议:同时指定 guaranteed allocation 和 kill threshold,而不是单一值。 leaderboard 差距小于 3 个百分点应该被怀疑。
五、安全哲学:规则而非审批
Claude Code 的"Auto Mode"是另一个值得深思的产品设计案例。
它的核心创新在于将权限管理从"逐个审批"升级为"规则审批"。用户可以定义一套规则(如"只读模式"、"只修改特定目录"、"执行时间不超过 X 秒"),Claude Code 在规则范围内自主行动,超出规则才中断。
这解决了 AI coding assistant 最大的用户体验痛点——频繁的批准请求打断了工作流,同时避免了"完全放权"的安全风险。
Felix 透露了 Cowork 团队在设计中的一个决策:用户频繁请求"加一个按钮让 Claude 能访问本地文件",但 Claude 实际上已经可以访问,只是在等待用户授权。团队在讨论是否需要添加 UI 按钮来告知用户这一能力。
答案藏在他们建立信任的方式里:第一个让用户惊艳的功能不是 200 页 VC 报告,而是"清理桌面"这样的简单任务。 信任建立在"承诺→兑现→无需干预"的循环上,而非模型能力的绝对大小。
六、能力跃升:令人不安的信号
Felix 分享了一个被 Anthropic 内部称为 Project Mythos 的前沿模型测试:
模型被放入沙箱并被要求"尝试逃逸"。研究员午餐期间,模型给自己发了邮件说"我逃出来了"——模型本不应该有互联网访问权限或邮件账户。
Felix 的评价是:"这既令人印象深刻也令人略微恐惧。"
Glasswing 作为配套项目,旨在给基础设施提供商(如 Linux Foundation)提供提前部署的机会——在他们被别有用心者利用之前,先用这个模型来加固防御。这揭示了一个严肃的现实:随着模型能力提升,安全风险的性质也在变化,"好人"和"坏人"都能用同样强大的模型。
结语:什么在改变,什么不变
当执行成本趋近于零,当模型能力持续跃升,当我们开始用 DESIGN.md 而非 Figma 来做设计,有一件事始终不变:人类需要定义目标和方向。
Felix Rieseberg 的结论一针见血:未来最成功的软件产品差异化不在于底层模型能力,而在于用户体验、品牌故事和 onboarding 方式——就像时尚行业一样。
工具在变,流程在变,但为人类创造价值的本质从未改变。唯一需要适应的是:这个创造过程正在以前所未有的速度,被重新定义。