Sakana AI 的 Fugu 编排多个 LLM
The Decoder··作者 Matthias Bastian
关键信息
Fugu 本身会被训练成调用一个代理模型池中的其他 LLM,其中也包括它自己的副本,并在内部完成选择、分派、检查和综合。Sakana 提供面向低延迟日常场景的基础版,以及面向更复杂多步骤任务的 Fugu Ultra,并允许因隐私或合规需求排除特定代理模型。
资讯摘要
日本东京的 AI 初创公司 Sakana AI 发布了 Fugu,这是一个多 LLM 编排系统,目标是通过一个兼容 OpenAI 的单一 API,让用户感受到它就像一个单模型。该系统会根据请求内容动态决定是由自己直接处理,还是从一个可替换的模型池中调度一组专门模型协作完成任务。Sakana 表示,系统内部会完成模型选择、任务分派、检查和结果综合等步骤。公司还称,Fugu 的代理池里甚至可以包含它自己的副本,这让它比固定的单模型部署更灵活。Sakana 这次推出了两个版本:基础版 Fugu 面向低延迟、日常使用场景,而 Fugu Ultra 则面向更复杂的多步骤任务。
基础版重点覆盖编码、代码审查和聊天机器人等用途,同时支持为隐私或合规需求排除特定代理模型。Fugu Ultra 则被用于 AI 研究、科学论文复现、网络安全分析,以及专利和文献检索等工作。Sakana 还公布了基准测试结果,称 Fugu Ultra 在编码、推理、科学和智能体评测上与 Anthropic 的 Fable 5 和 Mythos Preview 表现相当。值得注意的是,这两个 Anthropic 模型并不在 Fugu 的代理池中,因为它们尚未公开可用。文章同时指出,Sakana 将这种可替换模型池描述为减少供应商锁定和提升韧性的一种方式,但系统的真实表现仍然取决于可用模型的组合。

资讯正文
Sakana AI 的 Fugu 通过编排多个 LLM 来对标 Anthropic 的 Fable 和 Mythos 基准
要点
- 日本 AI 初创公司 Sakana AI 正在推出 Fugu,这是一套系统,它通过一个可替换的模型池动态协调多个语言模型,同时又能通过单一 API 表现得像一个模型。
- Sakana 表示,Fugu 在基准测试中的表现优于 Anthropic 最好的模型 Fable 和 Mythos,尽管这两个模型都不在其 LLM 池中。
- Fugu 分为适合日常任务的基础版本,以及更强大的 Fugu Ultra 变体。可替换的模型池设计也旨在降低对单一 AI 供应商的依赖。
总部位于东京的 AI 初创公司 Sakana AI 正在推出 Fugu,这是一套能动态协调多个 AI 模型的系统,旨在与 Anthropic 的 Fable 5 等领先系统竞争。该方法也希望降低对单一 AI 供应商的依赖。
这家同样位于东京的初创公司 Sakana AI 发布了 Fugu,这是一款多 LLM 编排器,对用户来说看起来和用起来都像单一模型。Sakana 在面向编程的编排式架构上已经取得了不错的成绩。其 ALE-Agent 在一场编程竞赛中从 1,000 名人工专家中排名第 21。
Fugu 本身就是一个语言模型,它经过训练,能够从一个代理池中调用其他 LLM,其中也包括它自身的副本。根据请求不同,它要么独立处理任务,要么组建一支由专门模型组成的团队。选择、委派、检查和综合都在内部完成。用户通过单一的 OpenAI 兼容 API 访问全部功能。
Fugu Ultra 旨在匹配顶级模型
Sakana AI 正在推出两个版本。基础版 Fugu 模型面向低延迟,以及在编码、代码审查和聊天机器人等场景中的稳定日常表现。对于有隐私或合规需求的团队,可以将特定代理从池中排除。
Fugu Ultra 则面向复杂、多步骤问题,追求最高质量的回答。早期用户已经将其用于 AI 研究、科学论文复现、网络安全分析,以及专利和文献检索。
根据 Sakana AI 公布的基准结果,Fugu Ultra 在一系列编码、推理、科学和代理基准上,与 Anthropic 的 Fable 5 和 Mythos Preview 表现相当。
不过,这两个 Anthropic 模型都没有被纳入 Fugu 的代理池,因为它们并未公开提供。如果把这些模型也加入进去,Fugu 的分数很可能还会更高。Sakana AI 表示,基线对比数字来自模型提供方本身。下表展示了 Fugu 与其底层基础模型的对比情况。
将编排作为应对供应商锁定的对冲
Sakana AI 将 Fugu 定位为防范单一供应商依赖的保障措施。公司以近期对 Anthropic 的 Fable 和 Mythos 模型实施出口管制为具体例子。对顶级 AI 系统的访问,可能因监管变化或外交决策而在一夜之间消失。
“对于一个组织或一个国家来说,将关键基础设施、金融或治理依赖于某一家公司的 API,是一种重大的脆弱性。这种风险已不再是假设,而是现实,”Sakana AI 在公告中写道。Fugu 的模型池完全可替换,因此如果某个供应商失效,系统可以改由其他模型接管。
不过,系统的实际表现完全取决于池中有哪些模型。如果有几家头部供应商同时限制访问,Fugu的选择也会随之缩小。像Fugu这样的编排器或许能提升韧性,但它并不等同于真正的主权。尽管如此,仅从性能角度看,Fugu仍值得关注。
早期测试者报告称,在复杂工作流中表现有所提升
据 Sakana AI 介绍,约有500名 beta 用户已经在真实场景中测试了这套系统。Fugu 在自动化数据研究、安全分析和代码审查等长链路、多步骤工作流中表现最强。
视频:据 Sakana 称,Fugu 解决并可视化一个魔方的速度比单个模型更快。
“Sakana AI 写道,beta 测试清楚表明,多智能体编排在任务杂乱、耗时长且难以通过单次模型调用解决时最为重要。”
两个版本现已通过产品页面和控制台上的单一 API 提供。Sakana 为日常使用提供订阅计划,也为更大规模的工作负载提供按量计费。
Sakana 的押注是 AI 生态系统,而不是单一模型
Fugu 的技术路径建立在 Sakana AI 自身关于学习型模型编排的研究之上,具体来说,是 ICLR 2026 上展示的两篇论文《Trinity》和《Conductor》。
这一思路契合 Sakana AI 更广泛的愿景:将群体行为、进化和集体智能等自然原理应用到 AI 系统中。该公司认为,强大的 AI 并不是单一模型的问题,而是一个协作生态系统,其能力超越任何一个模型单独所能做到的事情。
Sakana AI 由前 Google AI 研究员 Llion Jones 和 David Ha 创立。Jones 是 2017 年《Attention Is All You Need》的共同作者,这篇论文提出了 Transformer。
来源与参考