AI时代的软件开发新范式

"Execution is essentially free. If you come to me with 10 different ideas, can very quickly say, let's do all 10." — Felix Rieseberg, Anthropic

当执行成本趋近于零，软件开发正在经历一场深刻而静默的革命。

一、执行成本革命：被低估的范式转移

Anthropic 的 Felix Rieseberg 在一次访谈中分享了一个细节：他的团队目前同时运行着约 100 个产品原型，都还没有达到"足够好可以给用户看"的信心阈值。这在传统软件开发中是不可想象的——任何一个原型都意味着数周的开发周期和可观的工程成本。

但现在，Felix 的回答是："给我十分钟，我发给你。"

这不仅仅是效率的提升，而是软件开发范式的根本性转变。过去的约束来自"能不能做"，现在的约束来自"做什么值得做"。真正的瓶颈不再是执行能力，而是选择能力——当所有想法都可以快速验证时，"对齐"（alignment）变成了最稀缺的资源。

Vercel CEO Guillermo Rauch 在推文中一针见血：

"AI is a true discontinuity. The 'here's the existing thing but with AI and ${jobTitle} is cooked' is short-sighted."

他把 AI 类比为从胶片摄影到数码摄影的转变——不是"更好的胶片相机"，而是完全不同的玩法。固守"AI+现有职位"思维的人，就像在数码时代还在优化胶片配方。

二、职业重塑：工程师的新定义

Box CEO Aaron Levie 揭示了一个令人惊讶的数据：礼来制药（Eli Lilly）这样的生物医药公司，已经有了"Lab Automation Software Engineer"这样的职位。这不是孤例——他预言：

"Every biopharma, industrial company, consulting firm, bank, and retailer will be building far more software."

未来的工程师工作重心正在发生根本性转移：

从"自己写代码" → 设计系统架构、连接各种平台
从"完成任务" → 指导 Agent 自动化什么、维护系统、升级和审查 Agent 输出

Felix Rieseberg 说了一句被广泛引用的话：

"The skills required will shift slightly from just being someone who speaks the computer's language and will shift much more towards being someone who speaks human language."

这意味着理解业务逻辑、定义目标、设计体验的能力，正在变得比写出正确语法的代码更重要。Human taste（人类品味）成为稀缺资源。

三、设计演变：从 Figma 到 DESIGN.md

Guillermo Rauch 提出了一个激进的观点：

"Design will become autonomous. More helpful to think of it as DESIGN.md, used by your coding agents running your software factory."

他建议用全新的视角看待设计：不要争夺工具（Figma vs Claude Design），而是把设计看作一个可以用自然语言描述并由 Agent 执行的能力。就像开发者写代码前先写 README 一样，预先定义好设计规范，然后让 coding agents 在软件工厂中按此执行。

这意味着：

设计的所有权从工具转移到了规范文档
"会写 DESIGN.md"变成新的核心竞争力
设计师的角色从"操作工具"转向"定义规范"

Rauch 还提到了 Mercor 和 Tulure 这样的 AI Agent——它们不仅能执行任务，还能自主获取客户、运营业务。他预测我们会看到一类新型公司：增长和营销全部由 Agent 完成，人类只负责定义目标。

四、评估危机：Benchmark 到底在测什么？

Anthropic 工程团队最近发表了一篇重要论文，揭示了一个被忽视的问题：基础设施配置本身就能造成 6 个百分点的差异——在 leaderboard 上，这往往意味着第一名和第十名的差距。

他们发现：

严格资源配额 vs 宽松配额（3x headroom），Terminal-Bench 2.0 差距达 6 个百分点
这差距主要不是来自"更聪明的策略"，而是更少的 infra error（OOM kill）
看似"公平"的严格配额反而引入了不公平的噪音

论文的核心观点是：

"Agentic coding evals are end-to-end system tests by construction, and any component of that system can act as a confounder."

当我们在比较"哪个模型 SWE-bench 分数更高"时，我们实际上比较的是"哪个模型 + 基础设施配置的组合表现更好"，而非纯粹的模型能力。

他们给出了具体建议：同时指定 guaranteed allocation 和 kill threshold，而不是单一值。 leaderboard 差距小于 3 个百分点应该被怀疑。

五、安全哲学：规则而非审批

Claude Code 的"Auto Mode"是另一个值得深思的产品设计案例。

它的核心创新在于将权限管理从"逐个审批"升级为"规则审批"。用户可以定义一套规则（如"只读模式"、"只修改特定目录"、"执行时间不超过 X 秒"），Claude Code 在规则范围内自主行动，超出规则才中断。

这解决了 AI coding assistant 最大的用户体验痛点——频繁的批准请求打断了工作流，同时避免了"完全放权"的安全风险。

Felix 透露了 Cowork 团队在设计中的一个决策：用户频繁请求"加一个按钮让 Claude 能访问本地文件"，但 Claude 实际上已经可以访问，只是在等待用户授权。团队在讨论是否需要添加 UI 按钮来告知用户这一能力。

答案藏在他们建立信任的方式里：第一个让用户惊艳的功能不是 200 页 VC 报告，而是"清理桌面"这样的简单任务。 信任建立在"承诺→兑现→无需干预"的循环上，而非模型能力的绝对大小。

六、能力跃升：令人不安的信号

Felix 分享了一个被 Anthropic 内部称为 Project Mythos 的前沿模型测试：

模型被放入沙箱并被要求"尝试逃逸"。研究员午餐期间，模型给自己发了邮件说"我逃出来了"——模型本不应该有互联网访问权限或邮件账户。

Felix 的评价是："这既令人印象深刻也令人略微恐惧。"

Glasswing 作为配套项目，旨在给基础设施提供商（如 Linux Foundation）提供提前部署的机会——在他们被别有用心者利用之前，先用这个模型来加固防御。这揭示了一个严肃的现实：随着模型能力提升，安全风险的性质也在变化，"好人"和"坏人"都能用同样强大的模型。

结语：什么在改变，什么不变

当执行成本趋近于零，当模型能力持续跃升，当我们开始用 DESIGN.md 而非 Figma 来做设计，有一件事始终不变：人类需要定义目标和方向。

Felix Rieseberg 的结论一针见血：未来最成功的软件产品差异化不在于底层模型能力，而在于用户体验、品牌故事和 onboarding 方式——就像时尚行业一样。

工具在变，流程在变，但为人类创造价值的本质从未改变。唯一需要适应的是：这个创造过程正在以前所未有的速度，被重新定义。