Arcee AI打造开源400B参数推理模型，性能媲美Claude Opus

The Decoder·4月12日 16:59 UTC·作者 Jonathan Kemper

关键信息

该模型使用17万亿token（其中8万亿为合成数据）在2048张Nvidia B300 GPU上训练了33天，采用了自定义负载均衡方法（SMEBU）防止训练过程中专家崩溃。尽管训练时上下文窗口为256K，但实际支持512K的上下文长度。

资讯摘要

Arcee AI发布了Trinity-Large-Thinking，这是一个4000亿参数的推理模型，采用Apache 2.0许可证，其在代理任务中的表现可媲美Claude Opus。公司投入约2000万美元（占全部风投资金的一半）来构建该模型。它使用专家混合（MoE）架构，包含256个子网络，但每次只激活4个，从而在保持高容量的同时实现高效推理。该模型在工具调用、规划和长上下文任务（如Needle-in-a-Haystack）中表现出色，在512K上下文中得分达到0.976。

一种名为SMEBU的新负载均衡技术解决了训练中专家崩溃的问题——这是大型MoE模型常见的失败模式。17万亿训练token中有超过8万亿是合成数据，由DatologyAI整理。这可能是用于LLM训练的最大合成数据集之一。

资讯正文

Arcee AI 花费一半风险投资资金打造了一个在代理任务中可与 Claude Opus 竞争的开源推理模型

Arcee AI 已发布 Trinity-Large-Thinking，这是一个旨在与 Claude Opus 在代理任务中竞争的开源推理模型。该公司为此项目投入了大约一半的总风险资本。

目前，大型语言模型的开源权重领域主要由 Qwen、MiniMax 和智谱 AI 等中国实验室主导。美国初创公司 Arcee AI 希望通过 Trinity-Large-Thinking 改变这一局面——这是一个采用 Apache 2.0 许可证的推理模型，拥有约 4000 亿参数，专为代理任务设计。该模型采用专家混合（Mixture-of-Experts）架构，每 token 只激活约 130 亿参数，尽管模型规模庞大，但推理效率依然很高。

据公司称，团队使用 2048 块 NVIDIA B300 GPU 训练基础模型，耗时 33 天，总成本约为 2000 万美元，占 Arcee AI 目前募集的全部风险资本的一半左右。「在许多维度上，这可能是中国以外发布的最强开源模型，」CTO 卢卡斯·阿特金斯（Lucas Atkins）在随模型发布而附带的博客文章中写道。

代理基准测试表现强劲，通用推理能力稍显落后

Trinity-Large-Thinking 在每次作答前会生成一个明确的思考过程，以特殊的思想块（think blocks）形式呈现。该模型针对工具调用、多阶段规划和自主工作流进行了优化。

每 token 仅激活 4 个专家

该模型采用包含 256 个专业子网络的专家混合架构，但每个 token 仅激活其中 4 个。这意味着，在任何计算步骤中，大约只有 130 亿参数参与运算，从而节省算力而不牺牲模型的整体容量。根据技术报告，尽管 GLM 4.5 每 token 激活更多参数，Trinity-Large-Thinking 的基准测试结果仍与其相当。

为了处理长文本，Trinity Large 结合了两种注意力层：局部注意力层仅覆盖文本的一部分，与之交替的是全局注意力层，能够覆盖整个上下文。这种结构可在不显著增加计算成本的前提下支持超长上下文窗口。实际上，该模型在 512K tokens 的上下文窗口下表现良好，尽管其训练时的上下文长度仅为 256K。在 Needle-in-a-Haystack 测试中（检验模型能否从长文本中定位特定信息），它在 512K 上下文中得分达到 0.976。

定制化的平衡方法防止训练期间专家崩溃

早期训练运行遇到瓶颈，因为个别专家出现了崩溃现象。子网络之间的 token 分布发生偏移，部分专家完全不再被使用，模型性能停滞不前。根据技术报告，根本原因在于现有专家负载均衡方法存在问题：无论某个专家是轻微还是严重过载，系统每次都用相同的固定步长进行调整，导致 256 个专家之间不断震荡，无法进入稳定状态。

团队开发了SMEBU（软夹持动量专家偏差更新）方法来解决这一问题，这是一种新方法，能根据实际偏差比例调整修正幅度，并随时间平滑处理。结合因时间压力同时引入的另外五项稳定措施，该方案成功解决了问题。随后整个训练过程保持稳定，没有出现一次训练损失的突然激增。这类激增是大型模型中常见的严重问题，在最坏情况下可能毁掉整个训练过程。

超过8万亿个标记的合成训练数据

训练数据的一大块来自合成数据：在总共17万亿个标记中，超过8万亿是由其他AI模型生成的，而非从网络上抓取。其中包括6.5万亿个重写后的网页文本、约1万亿个多语言数据以及大约8000亿个代码标记。合作伙伴DatologyAI负责数据整理。根据技术报告，这属于预训练阶段已记录的最大规模合成数据生成之一。

Prime Intellect提供了GPU集群。由于当时B300系统还是全新的，GPU错误频繁出现，只能通过固件更新修复。

团队还开发了一种新的训练数据处理方法，称为随机顺序文档缓冲（RSDB）。通常情况下，特别长的文档会连续占据多个训练步骤，从而扭曲数据分布。RSDB则随机打乱文档顺序，技术报告指出，这种方法显著减少了单个训练步骤之间的波动。

尽管后期微调有限，但早期采用率强劲

预训练完成后，模型进入第二个微调阶段，重点提升工具使用和多步骤任务等特定技能。不过，根据技术报告，由于GPU集群计算时间受限，该阶段比原计划更短。Arcee AI称当前版本为初步版本，并计划在下一迭代中进行更广泛的微调。

此前发布的预览版曾在OpenRouter平台上运行，前两个月处理了3.37万亿个标记。据Arcee AI称，它在该平台美国用户中成为最受欢迎的开源模型之一。当前的Thinking版本也已在OpenRouter上线，并可与OpenClaw和Hermes Agent等代理框架协同工作。

就在Arcee AI发布前不久，谷歌推出了Gemma 4系列开源模型，这也是一款Apache 2.0许可证下的新模型，部分基于混合专家架构。

来源与参考

收录于 2026-04-13