Holo3 在企业级自主AI领域实现突破
Hugging Face Blog··作者 Hugging Face Blog
关键信息
Holo3采用专用训练飞轮,结合合成导航数据、域外增强和精炼强化学习,提升感知与决策能力,适用于真实世界任务。
资讯摘要
Holo3是Hugging Face开发的一款自主企业级AI模型,在OSWorld-Verified基准测试中达到78.85%的准确率。它利用创新的代理飞轮训练流程,包括合成环境、数据增强和强化学习。该模型仅用100亿活跃参数(总计1220亿),成本远低于GPT-5.4或Opus-4.6等大型专有模型。
Holo3通过自动化编码代理构建的合成企业环境进行训练,能处理复杂多应用任务,如从PDF获取价格、核对预算并发送个性化邮件。其成功展示了技术上的突破和实际部署的可行性。

资讯正文
我们自豪地推出 Holo3,这是我们对自主企业愿景的最新演进。在 OSWorld-Verified 基准测试中,Holo3-122B-A10B 获得 78.85% 的分数,成为当前桌面计算机使用基准测试中的行业新标杆。
Holo3 不仅是基准测试的领导者,更是为生产环境打造的模型。它基于我们的代理飞轮架构构建,经过训练可在合成企业环境中执行真实世界的工作流程。这不仅确保 Holo3 在当今商业场景中表现出色,也为未来我们的代理能够自主导航几乎任何数字环境奠定了基础。
最重要的是,Holo3 仅使用 100 亿个活跃参数(总计 1220 亿),成本仅为 GPT 5.4 或 Opus 4.6 等大规模专有模型的一小部分。所有模型均可通过我们的推理 API 获取。Holo3-35B-A3B 的权重已开源发布在 Hugging Face 上,采用 Apache2 许可证,并可通过我们的推理 API 免费层级免费访问。
让 Holo3 脱颖而出的是其专门设计的训练流程——一个持续反馈循环,旨在强化两个核心代理支柱:感知能力和决策能力。
我们的训练飞轮致力于通过标注示例教会模型如何执行特定任务,同时发展出跨几乎无限种类用户界面的通用技能。以下是我们在构建世界级计算机使用模型时的方法:
合成导航数据:利用人类和生成的指令,我们生成针对特定场景的导航示例。
跨域增强:我们通过程序化扩展场景并扩充数据,确保 Holo3 能应对意外情况。
精选强化学习:每个数据样本都经过精心筛选,并通过融合先进数据过滤与强化学习的管道处理,以最大化性能表现。
除了原始分数外,OSWorld 结果也为我们学习飞轮提供了一个决定性的概念验证。为了验证其在真实商业应用中的迁移能力,我们创建了合成环境工厂。
这一专有工厂重现了企业系统的现实情况,是 Holo3 成长的重要训练场所之一。我们的环境由编码代理自动构建,根据场景规范从零开始编程网站,生成难度各异、可验证的任务,并通过验证脚本进行端到端验证。
为了衡量实际应用准备度,我们还设计了 H Corporate Benchmarks,这是一个包含 486 个多步骤真实任务的专用评估套件,涵盖四大类别:电子商务、业务软件、协作工具以及多种多应用组合场景。
Holo3:突破计算机使用边界
该基准测试涵盖了完整的复杂度范围:从专注的单一应用程序任务,到需要长期规划、跨多个应用程序的复杂工作流程,这些流程真实模拟了实际工作中任务的执行方式。在更复杂的多应用场景中,任务要求代理同时协调多个系统中的信息——例如,从PDF文档中提取设备价格,将其与每位员工的剩余预算进行比对,并自主向每个人发送个性化的审批或拒绝邮件。这类任务不仅需要精确的计算和文档解析能力,还要求在不丢失状态或意图的前提下,跨多个应用持续进行多步骤推理。
为训练Holo3而创建的合成环境示例
在下述结果中,我们看到Holo3在单一应用基准测试中超越了其竞争对手。Holo3与基础Qwen3.5模型之间的性能差距体现了我们代理式学习飞轮的影响。Holo3在保持相同定位和语境准确性标准的同时,以远低于其他参数量大得多的模型的成功率,展现了这种专项训练的真实价值。
Holo3是一个里程碑,但不是终点。通过构建一个能够在客户数字平台中感知、推理并行动的系统,我们正在让自主企业成为现实。
随着我们的“合成环境工厂”不断演进,我们的代理正在学会处理越来越复杂的任务。尽管目前Holo3已经掌握了界面操作,我们已经开始着手探索下一个前沿领域:自适应代理(Adaptive Agency),届时我们的模型将不仅能使用已知工具,还能实时自主学习如何导航全新的定制化企业软件。
来源与参考
收录于 2026-04-02