Anthropic展示代理升级,而非新Claude模型

Simon Willison··作者 Simon Willison

关键信息

Anthropic 表示,Claude Code 的 Pro、Max 和 Enterprise 用户将获得翻倍的五小时使用额度,并称其与 SpaceX 合作以使用 Colossus 数据中心的全部算力。公司还强调了“advisor strategy”,即让 Opus 等大模型为 Sonnet 之类的小模型提供建议,并称这种方式在一些客户那里同时提升了基准表现并降低了成本。

资讯摘要

Simon Willison 的现场博客记录了 2026 年 5 月 6 日 Anthropic 的 Code w/ Claude 活动上午主题演讲。开场由 Anthropic 首席产品官 Ami Vora 主持,她分享了来自 Stripe 和 Binti 的开发效率案例。Willison 认为一开始内容更偏激励性而不是重磅消息,但 Anthropic 随后把重点放在产品和平台改进上,而不是发布新模型。一个显著数据是,Anthropic 平台的 API 流量同比增长了 17 倍。Anthropic 还宣布,从今天起提高 Claude Code 和 API 的开发者速率限制,其中 Claude Code 的 Pro、Max 和 Enterprise 用户五小时额度翻倍。

公司称正在与 SpaceX 合作,以使用 Colossus 数据中心的全部算力。随后演讲者讨论了工具使用、长上下文、计算机使用、自适应思考、视觉设计和 agentic loops 等能力,认为这些能力已经强到足以支持更复杂的工作流。Anthropic 还强调,很多团队现在会让 Claude 连续运行数小时,而不是过去那样只能运行几分钟,并建议开发者按“下一代模型”的能力来设计产品。主题演讲还介绍了 Claude Managed Agents 的三项新功能:多代理编排、用于定义成功标准的 outcomes,以及“Dreaming”功能,它可以让 Claude 检查过去会话并推断自己遗漏了什么,从而自我改进。最后,演示还用一个假设的月球无人机着陆产品举例,展示多个代理如何分别扮演 Commander、Detector 和 Navigator 等角色协作完成任务。

资讯正文

Code w/ Claude 2026 直播博客

2026年5月6日

我今天在 Anthropic 的 Code w/ Claude 活动现场。以下是我对上午主题演讲环节的直播记录。

08:56 我刚坐到主会场。主题演讲将于上午9点开始。

09:03 可爱的开场动画,主角是那个橙色的 Claude 像素艺术小角色。

09:05 台上:Anthropic 首席产品官 Ami Vora——她今年早些时候接替了 Mike Krieger(他现在是 Anthropic Labs 的联合负责人)。

09:07 Ami 正在分享一些关于开发速度的轶事——Stripe 的 Scott MacVicar 团队、Binti 的 Felicia Curcuru 团队。

09:07(这一切对我来说有点太励志了,我更希望听到一些新的模型/产品/功能公告!)

09:09 现在在谈 Mythos 阅读 OpenBSD 源码树,并发现了一个已有 27 年历史的漏洞,以此说明模型的改进。

09:09 Anthropic 平台上的 API 流量同比增长了 17 倍。

09:09 今天没有新模型。“今天的重点是我们如何让我们的产品更好地为你工作。”

09:11 Claude 托管代理更新——多代理编排。Claude Code routines。“大多数人会通过你们在 Claude 平台上构建的东西之一来体验 AI。”

09:12 “分享一个小而令人兴奋的消息”——从今天起,Claude Code 和 API 面向开发者提高速率限制。Pro、Max、Enterprise 客户的 Claude Code 五小时限制将翻倍。“我们正在与 SpaceX 合作,以利用他们 Colossus 数据中心的全部容量。”

09:13(那就是孟菲斯的同一个 Colossus 数据中心,其环境记录尤其糟糕。)

09:14 接下来登场:Dianne Na Penn——研究产品负责人。

09:16 正在谈论工具使用、长上下文、计算机使用、自适应思维、视觉设计、agentic loops 的重要性。“模型智能——这个核心基础——已经强大到足以支撑这一切。”

09:16 还在谈 amp 如何把它的规划模式切换到了 Opus 4.7。这是他们关于此事的博客文章。

09:18 更高的判断力和代码品味。与高质量记忆结合时,会有“感觉无限”的上下文窗口。多代理协作可帮助实现那些单个实例无法达成的宏大目标。

09:19 去年这个时候,模型一次只能工作几分钟。如今很多人让它们连续运行数小时。

09:20(到目前为止,这场环节里唯一的新闻是 SpaceX Colossus 交易。以及我猜去年以来 API 流量增长了 17 倍这件事。)

09:21 经典建议:为下一个模型而设计。构建那些今天还不完全奏效的东西,并假设未来随着模型升级它们会开始运行。

09:22 Dianne 说,从 Claude 中获得最大收益的团队,正在把重点放在自动化评估、简单脚手架,以及对模型更具想象力的用法上——这些用法是其他人尚未想出来的。

09:23 现在:Katelyn Lesse 和 Angela Kiang。

09:24 这一部分全部围绕 Claude Platform,以及如何从中“获得正确的结果”。

“顾问策略”——让 Opus 可以按需为更小的模型提供建议。他们在让 Sonnet 以顾问身份调用 Opus 时,得到了更好的基准测试结果——既有更高的基准分数,也有更低的成本。某位客户 eve 取得了“以低 5 倍的成本获得前沿模型质量”的效果。

速度和规模很难同时实现。Claude Managed Agents 旨在帮助团队“快 10 倍”地交付。它开箱即捆绑了许多最佳实践——比如记忆功能。

今天:Claude Managed Agents 有三项新功能。多智能体编排,用于创建智能体舰队来解决复杂任务。Outcomes 用来设定成功应是什么样子,这样 Claude 就可以迭代并把事情完成——听起来像是一个 Ralph 循环。还有“Dreaming”——Claude 可以检查自己之前的会话,找出遗漏并自我改进。

现在来看一个例子:构建一个假想产品,用于让无人机在月球上着陆。

要完成这项工作,需要多个智能体——Commander、Detector 和 Navigator。我在演示里有点跟不上了,希望他们在会后公布详细笔记。

Dreaming 看起来真的很有意思。你可以让一个任务整夜运行,它会检查之前的会话并创建新的记忆——在这个例子中,它创建了一个 descent-playbook.md 文件。

多智能体编排和 Outcomes 都处于公开 Beta。Dreaming 则是研究预览。我不确定这两个类别之间到底有什么区别。

接下来登场的是 Claude Code 产品负责人 Cat Wu。

“感谢你们在 Sonnet 3.7 还是我们顶级模型的时候,就信任 Claude Code 用于你们的生产数据库。”(不错。)

这是关于 Dreams 的文档。看起来你需要申请访问权限才能试用它(因此它被称为“研究预览”。)

Claude Code 最初是 CLI——拥有最新的自定义能力,控制力最强。随后加入了 IDE——同样的智能体,但放在一个界面里,你可以更容易跟踪它正在进行的代码更改。最新的载体是桌面版 Claude Code——面向那些希望拥有全屏 GUI、全屏预览,以及图像和丰富输出的人。

IDE 和桌面应用都建立在同一个 Claude Agent SDK 之上,外部开发者也可以自行使用。

“我们从你们那里听到,你们希望花更少时间做代码审查”——因此他们推出了 Code Review,Anthropic 的每个团队都在使用它。

Remote Agents 让你可以用手机控制你的笔记本电脑。我倒是在手机上直接用 Claude Code for web,这样甚至不需要把一台笔记本电脑一直开着放在什么地方。

我之前没见过“CI auto-fix”,它会针对 PR 自动提交修复。关于这一点,我能找到的唯一文档是这条发布说明。

现在是在展示一些 Claude Code 客户——Shopify、Mercado Libre(他们有 23,000 名工程师!)——他们的目标是在今年 Q3 实现“90% 的自主编码”。

Cat 还提到了一件我也一直在观察的事:高管和经理们又开始亲自动手写代码了,因为要做出有用的贡献,不再需要那么多时间。

接下来登场的是 Boris Cherny,他创建了 Claude Code。“我们今天看到的一切,对我来说仍然像魔法一样,而我每天都在为 Claude Code 工作。”

09:44 Boris 正在用 Claude 桌面应用做演示。“Claude 正在为 ACME 的仪表盘添加退款功能”。其中包含幂等性设计,这样就不会重复退款、多币种处理,以及供合规团队使用的审计日志。右侧面板显示的是正在开发中的网页 UI,你可以看到 Claude 直接在使用它,并发现了一个边缘案例 bug。

09:45 ……不过 Boris 在 Claude 桌面应用中同时运行着多个会话,并且可以在它们之间切换,查看哪些需要你的输入。“我们认为,接下来会有很多代码以异步方式编写。”

09:46 Boris 说,今天他的很多代码都是由 routines 构建的。“Routines 是更高阶的提示词。”

09:46 “借助 Routines,开发者可以设置异步自动化流程,醒来时就能看到已经准备好合并的 PR。”

09:48 这些 PR 自动修复的思路是:“PR 的负责人永远不会看到红色 X。”Claude 正在自主向 Claude Code 发出提示。

09:49 主题演讲结束。今天的主题——对于一个名为“Code w/ Claude”的活动来说并不令人意外——似乎是在学习如何最有效地利用现有模型。

来源与参考

  1. 原始链接
  2. Live blog: Code w/ Claude 2026

收录于 2026-05-07