Arcee AI打造开源400B参数推理模型,性能媲美Claude Opus

The Decoder··作者 Jonathan Kemper

关键信息

该模型使用17万亿token(其中8万亿为合成数据)在2048张Nvidia B300 GPU上训练了33天,采用了自定义负载均衡方法(SMEBU)防止训练过程中专家崩溃。尽管训练时上下文窗口为256K,但实际支持512K的上下文长度。

资讯摘要

Arcee AI发布了Trinity-Large-Thinking,这是一个4000亿参数的推理模型,采用Apache 2.0许可证,其在代理任务中的表现可媲美Claude Opus。公司投入约2000万美元(占全部风投资金的一半)来构建该模型。它使用专家混合(MoE)架构,包含256个子网络,但每次只激活4个,从而在保持高容量的同时实现高效推理。该模型在工具调用、规划和长上下文任务(如Needle-in-a-Haystack)中表现出色,在512K上下文中得分达到0.976。

一种名为SMEBU的新负载均衡技术解决了训练中专家崩溃的问题——这是大型MoE模型常见的失败模式。17万亿训练token中有超过8万亿是合成数据,由DatologyAI整理。这可能是用于LLM训练的最大合成数据集之一。

Arcee AI打造开源400B参数推理模型,性能媲美Claude Opus

资讯正文

Arcee AI 花费一半风险投资资金打造了一个在代理任务中可与 Claude Opus 竞争的开源推理模型

Arcee AI 已发布 Trinity-Large-Thinking,这是一个旨在与 Claude Opus 在代理任务中竞争的开源推理模型。该公司为此项目投入了大约一半的总风险资本。

目前,大型语言模型的开源权重领域主要由 Qwen、MiniMax 和智谱 AI 等中国实验室主导。美国初创公司 Arcee AI 希望通过 Trinity-Large-Thinking 改变这一局面——这是一个采用 Apache 2.0 许可证的推理模型,拥有约 4000 亿参数,专为代理任务设计。该模型采用专家混合(Mixture-of-Experts)架构,每 token 只激活约 130 亿参数,尽管模型规模庞大,但推理效率依然很高。

据公司称,团队使用 2048 块 NVIDIA B300 GPU 训练基础模型,耗时 33 天,总成本约为 2000 万美元,占 Arcee AI 目前募集的全部风险资本的一半左右。「在许多维度上,这可能是中国以外发布的最强开源模型,」CTO 卢卡斯·阿特金斯(Lucas Atkins)在随模型发布而附带的博客文章中写道。

代理基准测试表现强劲,通用推理能力稍显落后

Trinity-Large-Thinking 在每次作答前会生成一个明确的思考过程,以特殊的思想块(think blocks)形式呈现。该模型针对工具调用、多阶段规划和自主工作流进行了优化。

每 token 仅激活 4 个专家

该模型采用包含 256 个专业子网络的专家混合架构,但每个 token 仅激活其中 4 个。这意味着,在任何计算步骤中,大约只有 130 亿参数参与运算,从而节省算力而不牺牲模型的整体容量。根据技术报告,尽管 GLM 4.5 每 token 激活更多参数,Trinity-Large-Thinking 的基准测试结果仍与其相当。

为了处理长文本,Trinity Large 结合了两种注意力层:局部注意力层仅覆盖文本的一部分,与之交替的是全局注意力层,能够覆盖整个上下文。这种结构可在不显著增加计算成本的前提下支持超长上下文窗口。实际上,该模型在 512K tokens 的上下文窗口下表现良好,尽管其训练时的上下文长度仅为 256K。在 Needle-in-a-Haystack 测试中(检验模型能否从长文本中定位特定信息),它在 512K 上下文中得分达到 0.976。

定制化的平衡方法防止训练期间专家崩溃

早期训练运行遇到瓶颈,因为个别专家出现了崩溃现象。子网络之间的 token 分布发生偏移,部分专家完全不再被使用,模型性能停滞不前。根据技术报告,根本原因在于现有专家负载均衡方法存在问题:无论某个专家是轻微还是严重过载,系统每次都用相同的固定步长进行调整,导致 256 个专家之间不断震荡,无法进入稳定状态。

团队开发了SMEBU(软夹持动量专家偏差更新)方法来解决这一问题,这是一种新方法,能根据实际偏差比例调整修正幅度,并随时间平滑处理。结合因时间压力同时引入的另外五项稳定措施,该方案成功解决了问题。随后整个训练过程保持稳定,没有出现一次训练损失的突然激增。这类激增是大型模型中常见的严重问题,在最坏情况下可能毁掉整个训练过程。

超过8万亿个标记的合成训练数据

训练数据的一大块来自合成数据:在总共17万亿个标记中,超过8万亿是由其他AI模型生成的,而非从网络上抓取。其中包括6.5万亿个重写后的网页文本、约1万亿个多语言数据以及大约8000亿个代码标记。合作伙伴DatologyAI负责数据整理。根据技术报告,这属于预训练阶段已记录的最大规模合成数据生成之一。

Prime Intellect提供了GPU集群。由于当时B300系统还是全新的,GPU错误频繁出现,只能通过固件更新修复。

团队还开发了一种新的训练数据处理方法,称为随机顺序文档缓冲(RSDB)。通常情况下,特别长的文档会连续占据多个训练步骤,从而扭曲数据分布。RSDB则随机打乱文档顺序,技术报告指出,这种方法显著减少了单个训练步骤之间的波动。

尽管后期微调有限,但早期采用率强劲

预训练完成后,模型进入第二个微调阶段,重点提升工具使用和多步骤任务等特定技能。不过,根据技术报告,由于GPU集群计算时间受限,该阶段比原计划更短。Arcee AI称当前版本为初步版本,并计划在下一迭代中进行更广泛的微调。

此前发布的预览版曾在OpenRouter平台上运行,前两个月处理了3.37万亿个标记。据Arcee AI称,它在该平台美国用户中成为最受欢迎的开源模型之一。当前的Thinking版本也已在OpenRouter上线,并可与OpenClaw和Hermes Agent等代理框架协同工作。

就在Arcee AI发布前不久,谷歌推出了Gemma 4系列开源模型,这也是一款Apache 2.0许可证下的新模型,部分基于混合专家架构。

来源与参考

  1. 原始链接
  2. Arcee AI spent half its venture capital to build an open reasoning model that rivals Claude Opus in agent tasks

收录于 2026-04-13