Holo3 在企业级自主AI领域实现突破

Hugging Face Blog·4月2日 00:36 UTC·作者 Hugging Face Blog

关键信息

Holo3采用专用训练飞轮，结合合成导航数据、域外增强和精炼强化学习，提升感知与决策能力，适用于真实世界任务。

资讯摘要

Holo3是Hugging Face开发的一款自主企业级AI模型，在OSWorld-Verified基准测试中达到78.85%的准确率。它利用创新的代理飞轮训练流程，包括合成环境、数据增强和强化学习。该模型仅用100亿活跃参数（总计1220亿），成本远低于GPT-5.4或Opus-4.6等大型专有模型。

Holo3通过自动化编码代理构建的合成企业环境进行训练，能处理复杂多应用任务，如从PDF获取价格、核对预算并发送个性化邮件。其成功展示了技术上的突破和实际部署的可行性。

资讯正文

我们自豪地推出 Holo3，这是我们对自主企业愿景的最新演进。在 OSWorld-Verified 基准测试中，Holo3-122B-A10B 获得 78.85% 的分数，成为当前桌面计算机使用基准测试中的行业新标杆。

Holo3 不仅是基准测试的领导者，更是为生产环境打造的模型。它基于我们的代理飞轮架构构建，经过训练可在合成企业环境中执行真实世界的工作流程。这不仅确保 Holo3 在当今商业场景中表现出色，也为未来我们的代理能够自主导航几乎任何数字环境奠定了基础。

最重要的是，Holo3 仅使用 100 亿个活跃参数（总计 1220 亿），成本仅为 GPT 5.4 或 Opus 4.6 等大规模专有模型的一小部分。所有模型均可通过我们的推理 API 获取。Holo3-35B-A3B 的权重已开源发布在 Hugging Face 上，采用 Apache2 许可证，并可通过我们的推理 API 免费层级免费访问。

让 Holo3 脱颖而出的是其专门设计的训练流程——一个持续反馈循环，旨在强化两个核心代理支柱：感知能力和决策能力。

我们的训练飞轮致力于通过标注示例教会模型如何执行特定任务，同时发展出跨几乎无限种类用户界面的通用技能。以下是我们在构建世界级计算机使用模型时的方法：

合成导航数据：利用人类和生成的指令，我们生成针对特定场景的导航示例。

跨域增强：我们通过程序化扩展场景并扩充数据，确保 Holo3 能应对意外情况。

精选强化学习：每个数据样本都经过精心筛选，并通过融合先进数据过滤与强化学习的管道处理，以最大化性能表现。

除了原始分数外，OSWorld 结果也为我们学习飞轮提供了一个决定性的概念验证。为了验证其在真实商业应用中的迁移能力，我们创建了合成环境工厂。

这一专有工厂重现了企业系统的现实情况，是 Holo3 成长的重要训练场所之一。我们的环境由编码代理自动构建，根据场景规范从零开始编程网站，生成难度各异、可验证的任务，并通过验证脚本进行端到端验证。

为了衡量实际应用准备度，我们还设计了 H Corporate Benchmarks，这是一个包含 486 个多步骤真实任务的专用评估套件，涵盖四大类别：电子商务、业务软件、协作工具以及多种多应用组合场景。

Holo3：突破计算机使用边界

该基准测试涵盖了完整的复杂度范围：从专注的单一应用程序任务，到需要长期规划、跨多个应用程序的复杂工作流程，这些流程真实模拟了实际工作中任务的执行方式。在更复杂的多应用场景中，任务要求代理同时协调多个系统中的信息——例如，从PDF文档中提取设备价格，将其与每位员工的剩余预算进行比对，并自主向每个人发送个性化的审批或拒绝邮件。这类任务不仅需要精确的计算和文档解析能力，还要求在不丢失状态或意图的前提下，跨多个应用持续进行多步骤推理。

为训练Holo3而创建的合成环境示例

在下述结果中，我们看到Holo3在单一应用基准测试中超越了其竞争对手。Holo3与基础Qwen3.5模型之间的性能差距体现了我们代理式学习飞轮的影响。Holo3在保持相同定位和语境准确性标准的同时，以远低于其他参数量大得多的模型的成功率，展现了这种专项训练的真实价值。

Holo3是一个里程碑，但不是终点。通过构建一个能够在客户数字平台中感知、推理并行动的系统，我们正在让自主企业成为现实。

随着我们的“合成环境工厂”不断演进，我们的代理正在学会处理越来越复杂的任务。尽管目前Holo3已经掌握了界面操作，我们已经开始着手探索下一个前沿领域：自适应代理（Adaptive Agency），届时我们的模型将不仅能使用已知工具，还能实时自主学习如何导航全新的定制化企业软件。

来源与参考

收录于 2026-04-02