Arcee AI打造开源400B参数推理模型,性能媲美Claude Opus
The Decoder··作者 Jonathan Kemper
关键信息
该模型使用17万亿token(其中8万亿为合成数据)在2048张Nvidia B300 GPU上训练了33天,采用了自定义负载均衡方法(SMEBU)防止训练过程中专家崩溃。尽管训练时上下文窗口为256K,但实际支持512K的上下文长度。
资讯摘要
Arcee AI发布了Trinity-Large-Thinking,这是一个4000亿参数的推理模型,采用Apache 2.0许可证,其在代理任务中的表现可媲美Claude Opus。公司投入约2000万美元(占全部风投资金的一半)来构建该模型。它使用专家混合(MoE)架构,包含256个子网络,但每次只激活4个,从而在保持高容量的同时实现高效推理。该模型在工具调用、规划和长上下文任务(如Needle-in-a-Haystack)中表现出色,在512K上下文中得分达到0.976。
一种名为SMEBU的新负载均衡技术解决了训练中专家崩溃的问题——这是大型MoE模型常见的失败模式。17万亿训练token中有超过8万亿是合成数据,由DatologyAI整理。这可能是用于LLM训练的最大合成数据集之一。

资讯正文
Arcee AI 花费一半风险投资资金打造了一个在代理任务中可与 Claude Opus 竞争的开源推理模型
Arcee AI 已发布 Trinity-Large-Thinking,这是一个旨在与 Claude Opus 在代理任务中竞争的开源推理模型。该公司为此项目投入了大约一半的总风险资本。
目前,大型语言模型的开源权重领域主要由 Qwen、MiniMax 和智谱 AI 等中国实验室主导。美国初创公司 Arcee AI 希望通过 Trinity-Large-Thinking 改变这一局面——这是一个采用 Apache 2.0 许可证的推理模型,拥有约 4000 亿参数,专为代理任务设计。该模型采用专家混合(Mixture-of-Experts)架构,每 token 只激活约 130 亿参数,尽管模型规模庞大,但推理效率依然很高。
据公司称,团队使用 2048 块 NVIDIA B300 GPU 训练基础模型,耗时 33 天,总成本约为 2000 万美元,占 Arcee AI 目前募集的全部风险资本的一半左右。「在许多维度上,这可能是中国以外发布的最强开源模型,」CTO 卢卡斯·阿特金斯(Lucas Atkins)在随模型发布而附带的博客文章中写道。
代理基准测试表现强劲,通用推理能力稍显落后
Trinity-Large-Thinking 在每次作答前会生成一个明确的思考过程,以特殊的思想块(think blocks)形式呈现。该模型针对工具调用、多阶段规划和自主工作流进行了优化。
每 token 仅激活 4 个专家
该模型采用包含 256 个专业子网络的专家混合架构,但每个 token 仅激活其中 4 个。这意味着,在任何计算步骤中,大约只有 130 亿参数参与运算,从而节省算力而不牺牲模型的整体容量。根据技术报告,尽管 GLM 4.5 每 token 激活更多参数,Trinity-Large-Thinking 的基准测试结果仍与其相当。
为了处理长文本,Trinity Large 结合了两种注意力层:局部注意力层仅覆盖文本的一部分,与之交替的是全局注意力层,能够覆盖整个上下文。这种结构可在不显著增加计算成本的前提下支持超长上下文窗口。实际上,该模型在 512K tokens 的上下文窗口下表现良好,尽管其训练时的上下文长度仅为 256K。在 Needle-in-a-Haystack 测试中(检验模型能否从长文本中定位特定信息),它在 512K 上下文中得分达到 0.976。
定制化的平衡方法防止训练期间专家崩溃
早期训练运行遇到瓶颈,因为个别专家出现了崩溃现象。子网络之间的 token 分布发生偏移,部分专家完全不再被使用,模型性能停滞不前。根据技术报告,根本原因在于现有专家负载均衡方法存在问题:无论某个专家是轻微还是严重过载,系统每次都用相同的固定步长进行调整,导致 256 个专家之间不断震荡,无法进入稳定状态。
团队开发了SMEBU(软夹持动量专家偏差更新)方法来解决这一问题,这是一种新方法,能根据实际偏差比例调整修正幅度,并随时间平滑处理。结合因时间压力同时引入的另外五项稳定措施,该方案成功解决了问题。随后整个训练过程保持稳定,没有出现一次训练损失的突然激增。这类激增是大型模型中常见的严重问题,在最坏情况下可能毁掉整个训练过程。
超过8万亿个标记的合成训练数据
训练数据的一大块来自合成数据:在总共17万亿个标记中,超过8万亿是由其他AI模型生成的,而非从网络上抓取。其中包括6.5万亿个重写后的网页文本、约1万亿个多语言数据以及大约8000亿个代码标记。合作伙伴DatologyAI负责数据整理。根据技术报告,这属于预训练阶段已记录的最大规模合成数据生成之一。
Prime Intellect提供了GPU集群。由于当时B300系统还是全新的,GPU错误频繁出现,只能通过固件更新修复。
团队还开发了一种新的训练数据处理方法,称为随机顺序文档缓冲(RSDB)。通常情况下,特别长的文档会连续占据多个训练步骤,从而扭曲数据分布。RSDB则随机打乱文档顺序,技术报告指出,这种方法显著减少了单个训练步骤之间的波动。
尽管后期微调有限,但早期采用率强劲
预训练完成后,模型进入第二个微调阶段,重点提升工具使用和多步骤任务等特定技能。不过,根据技术报告,由于GPU集群计算时间受限,该阶段比原计划更短。Arcee AI称当前版本为初步版本,并计划在下一迭代中进行更广泛的微调。
此前发布的预览版曾在OpenRouter平台上运行,前两个月处理了3.37万亿个标记。据Arcee AI称,它在该平台美国用户中成为最受欢迎的开源模型之一。当前的Thinking版本也已在OpenRouter上线,并可与OpenClaw和Hermes Agent等代理框架协同工作。
就在Arcee AI发布前不久,谷歌推出了Gemma 4系列开源模型,这也是一款Apache 2.0许可证下的新模型,部分基于混合专家架构。
来源与参考
收录于 2026-04-13