Sakana AI 的 Fugu 编排多个 LLM

The Decoder·6月22日 16:18 UTC·作者 Matthias Bastian

关键信息

Fugu 本身会被训练成调用一个代理模型池中的其他 LLM，其中也包括它自己的副本，并在内部完成选择、分派、检查和综合。Sakana 提供面向低延迟日常场景的基础版，以及面向更复杂多步骤任务的 Fugu Ultra，并允许因隐私或合规需求排除特定代理模型。

资讯摘要

日本东京的 AI 初创公司 Sakana AI 发布了 Fugu，这是一个多 LLM 编排系统，目标是通过一个兼容 OpenAI 的单一 API，让用户感受到它就像一个单模型。该系统会根据请求内容动态决定是由自己直接处理，还是从一个可替换的模型池中调度一组专门模型协作完成任务。Sakana 表示，系统内部会完成模型选择、任务分派、检查和结果综合等步骤。公司还称，Fugu 的代理池里甚至可以包含它自己的副本，这让它比固定的单模型部署更灵活。Sakana 这次推出了两个版本：基础版 Fugu 面向低延迟、日常使用场景，而 Fugu Ultra 则面向更复杂的多步骤任务。

基础版重点覆盖编码、代码审查和聊天机器人等用途，同时支持为隐私或合规需求排除特定代理模型。Fugu Ultra 则被用于 AI 研究、科学论文复现、网络安全分析，以及专利和文献检索等工作。Sakana 还公布了基准测试结果，称 Fugu Ultra 在编码、推理、科学和智能体评测上与 Anthropic 的 Fable 5 和 Mythos Preview 表现相当。值得注意的是，这两个 Anthropic 模型并不在 Fugu 的代理池中，因为它们尚未公开可用。文章同时指出，Sakana 将这种可替换模型池描述为减少供应商锁定和提升韧性的一种方式，但系统的真实表现仍然取决于可用模型的组合。

资讯正文

Sakana AI 的 Fugu 通过编排多个 LLM 来对标 Anthropic 的 Fable 和 Mythos 基准

要点

- 日本 AI 初创公司 Sakana AI 正在推出 Fugu，这是一套系统，它通过一个可替换的模型池动态协调多个语言模型，同时又能通过单一 API 表现得像一个模型。

- Sakana 表示，Fugu 在基准测试中的表现优于 Anthropic 最好的模型 Fable 和 Mythos，尽管这两个模型都不在其 LLM 池中。

- Fugu 分为适合日常任务的基础版本，以及更强大的 Fugu Ultra 变体。可替换的模型池设计也旨在降低对单一 AI 供应商的依赖。

总部位于东京的 AI 初创公司 Sakana AI 正在推出 Fugu，这是一套能动态协调多个 AI 模型的系统，旨在与 Anthropic 的 Fable 5 等领先系统竞争。该方法也希望降低对单一 AI 供应商的依赖。

这家同样位于东京的初创公司 Sakana AI 发布了 Fugu，这是一款多 LLM 编排器，对用户来说看起来和用起来都像单一模型。Sakana 在面向编程的编排式架构上已经取得了不错的成绩。其 ALE-Agent 在一场编程竞赛中从 1,000 名人工专家中排名第 21。

Fugu 本身就是一个语言模型，它经过训练，能够从一个代理池中调用其他 LLM，其中也包括它自身的副本。根据请求不同，它要么独立处理任务，要么组建一支由专门模型组成的团队。选择、委派、检查和综合都在内部完成。用户通过单一的 OpenAI 兼容 API 访问全部功能。

Fugu Ultra 旨在匹配顶级模型

Sakana AI 正在推出两个版本。基础版 Fugu 模型面向低延迟，以及在编码、代码审查和聊天机器人等场景中的稳定日常表现。对于有隐私或合规需求的团队，可以将特定代理从池中排除。

Fugu Ultra 则面向复杂、多步骤问题，追求最高质量的回答。早期用户已经将其用于 AI 研究、科学论文复现、网络安全分析，以及专利和文献检索。

根据 Sakana AI 公布的基准结果，Fugu Ultra 在一系列编码、推理、科学和代理基准上，与 Anthropic 的 Fable 5 和 Mythos Preview 表现相当。

不过，这两个 Anthropic 模型都没有被纳入 Fugu 的代理池，因为它们并未公开提供。如果把这些模型也加入进去，Fugu 的分数很可能还会更高。Sakana AI 表示，基线对比数字来自模型提供方本身。下表展示了 Fugu 与其底层基础模型的对比情况。

将编排作为应对供应商锁定的对冲

Sakana AI 将 Fugu 定位为防范单一供应商依赖的保障措施。公司以近期对 Anthropic 的 Fable 和 Mythos 模型实施出口管制为具体例子。对顶级 AI 系统的访问，可能因监管变化或外交决策而在一夜之间消失。

“对于一个组织或一个国家来说，将关键基础设施、金融或治理依赖于某一家公司的 API，是一种重大的脆弱性。这种风险已不再是假设，而是现实，”Sakana AI 在公告中写道。Fugu 的模型池完全可替换，因此如果某个供应商失效，系统可以改由其他模型接管。

不过，系统的实际表现完全取决于池中有哪些模型。如果有几家头部供应商同时限制访问，Fugu的选择也会随之缩小。像Fugu这样的编排器或许能提升韧性，但它并不等同于真正的主权。尽管如此，仅从性能角度看，Fugu仍值得关注。

早期测试者报告称，在复杂工作流中表现有所提升

据 Sakana AI 介绍，约有500名 beta 用户已经在真实场景中测试了这套系统。Fugu 在自动化数据研究、安全分析和代码审查等长链路、多步骤工作流中表现最强。

视频：据 Sakana 称，Fugu 解决并可视化一个魔方的速度比单个模型更快。

“Sakana AI 写道，beta 测试清楚表明，多智能体编排在任务杂乱、耗时长且难以通过单次模型调用解决时最为重要。”

两个版本现已通过产品页面和控制台上的单一 API 提供。Sakana 为日常使用提供订阅计划，也为更大规模的工作负载提供按量计费。

Sakana 的押注是 AI 生态系统，而不是单一模型

Fugu 的技术路径建立在 Sakana AI 自身关于学习型模型编排的研究之上，具体来说，是 ICLR 2026 上展示的两篇论文《Trinity》和《Conductor》。

这一思路契合 Sakana AI 更广泛的愿景：将群体行为、进化和集体智能等自然原理应用到 AI 系统中。该公司认为，强大的 AI 并不是单一模型的问题，而是一个协作生态系统，其能力超越任何一个模型单独所能做到的事情。

Sakana AI 由前 Google AI 研究员 Llion Jones 和 David Ha 创立。Jones 是 2017 年《Attention Is All You Need》的共同作者，这篇论文提出了 Transformer。

来源与参考