OpenEnv 获得更广泛的开源治理

Hugging Face Blog··作者 ben burtenshaw

关键信息

OpenEnv 正被收紧为一个互操作层,而不是完整的 RL 框架:它标准化环境的发布、部署和消费方式,但将奖励定义和训练器专属逻辑留给其他库处理。该项目采用类似 Gymnasium 的 API、HTTP 和 WebSocket 等标准协议、Docker 打包,并将 MCP 作为一等公民,以便同一环境在训练和生产中保持一致行为。

资讯摘要

OpenEnv 是一个用于创建 agentic 执行环境的工具,例如终端、浏览器,或者任何智能体可以交互的界面。Hugging Face 在这篇公告中表示,OpenEnv 正变得“更加开放”,目标是让智能体训练的未来建立在开源基础之上。项目现在将由一个委员会协调推进,成员包括 Meta-PyTorch、Unsloth、Modal、Prime Intellect、Nvidia、Mercor、Fleet AI 和 Hugging Face 等多家机构。与此同时,PyTorch Foundation、vLLM、SkyRL(UCB)、Lightning AI、Axolotl AI、Stanford Scaling Intelligence Lab、Mithril、OpenMined、Scaler AI Labs、Scale AI、Patronus AI、Surge AI、Halluminate、Turing、Scorecard 和 Snorkel AI 等组织也在支持和采用该项目。文章指出,Claude Code、Codex、OpenClaw 和 Hermes 等 agent harness 正在快速进步,而这部分进步来自像 GPT-5.5 和 Opus 4.8 这样的模型被专门训练来更好地使用各自的 harness。

Hugging Face 希望开源模型也能获得类似收益,包括更好地利用 harness,以及针对特定任务进行更高效的专门化,从而节省算力。为实现这一目标,OpenEnv 被定义为连接 harness、环境和训练器的通用接口,并且可以适配任意模型。项目同时也在收紧自身定位:它将作为 RL 环境的互操作层,负责标准化环境的发布、部署和消费,而奖励设计和训练器特定逻辑则留给专门库来处理。具体来说,兼容的环境会暴露类似 Gymnasium 的 API,通过客户端/服务器架构运行,并使用标准协议和 Docker 打包,同时内置对 MCP 的支持。路线图还包括基于数据集的 taskset、外部奖励、继续加强 harness 集成、在 TRL 和 Unsloth 中提供端到端示例,以及通过自动验证来衡量环境质量及其对模型学习的贡献。

OpenEnv 获得更广泛的开源治理

资讯正文

OpenEnv 是一款用于创建 agentic 执行环境的工具,例如终端、浏览器,或者任何智能体可以交互的事物。今天,我们很高兴地宣布,OpenEnv 将变得更加开放,以推动未来智能体训练走向开源。

从今天起,OpenEnv 将由一个委员会协调,目前成员包括 Meta-PyTorch、Reflection、Unsloth、Modal、Prime Intellect、Nvidia、Mercor、Fleet AI 和 Hugging Face。OpenEnv 现在位于 huggingface/OpenEnv。

OpenEnv 项目得到了 AI 生态中一些领先组织的支持和采用,其中包括 PyTorch Foundation、vLLM、SkyRL(UCB)、Lightning AI、Axolotl AI、Stanford Scaling Intelligence Lab、Mithril、OpenMined、Scaler AI Labs、Scale AI、Patronus AI、Surge AI、Halluminate、Turing、Scorecard 和 Snorkel AI。

像 Claude Code、Codex、OpenClaw 和 Hermes 这样的 agent harness 还在不断改进。其中一个原因是,像 GPT-5.5 和 Opus 4.8 这样的模型,是按照各自的 harness 进行训练的。

我们也希望开源模型能获得这样的收益:训练本地模型,让它们能够高效使用 harness,并通过针对特定任务专门化模型来节省算力。

前沿实验室训练模型和 harness,在大多数情况下,它们就像天生一对。模型会被训练成使用该 harness,并针对其特性进行优化。模型在某种程度上可以泛化到这些 harness 之外,但没有什么能比得上专门训练带来的效率。

在开源世界里,情况并非如此。开发者会在任何他们认为有价值的用例上,使用任意 harness、任意模型、任意推理引擎。这是社区的根本所在,但这也带来了需要基础设施和工具来解决的挑战。

这就是 OpenEnv 的用武之地。它是一个用于在 harness、环境和训练器之间建立接口的库,并且可用于任何模型。要让它真正站稳脚跟,就需要由所有主要利益相关方共同拥有。

在治理变更之外,我们也在进一步收紧 OpenEnv 的定位。

在最近的版本中,OpenEnv 已经演变为 RL 环境的互操作层。它的职责是标准化环境如何被发布、部署以及被智能体使用。它不会规定奖励该如何定义,也不会规定训练循环应如何工作。奖励定义、评分标准以及训练器特定逻辑,应当留在专门处理这些内容的库中。OpenEnv 是它们都可以接入的通用插口。

在实践中,这意味着:

一个接口,多个环境:所有环境都暴露熟悉的 Gymnasium 风格 API(reset()、step()、state()),并运行在客户端/服务器架构上。能够与 OpenEnv 对话的训练器,可以驱动任何符合规范的环境,而无需为每个环境编写定制代码。

熟悉的协议和规范化封装。环境通过 HTTP 和 WebSocket 等标准协议提供服务,并以 Docker 形式打包。MCP 是一等公民,因此 OpenEnv 环境可以立即与 MCP 服务器兼容,并且同一个环境在模拟(训练/评估)和生产模式下都能保持一致行为。

跨环境库的互操作性。你可以在不同生态系统中的环境之间定义和使用它们(verifiers、harbor 以及其他),并且可以选择你自己的基础设施和 hub。OpenEnv 是位于它们之下的部署和接口层,而不是与它们竞争。

在接下来的几个月里,我们将聚焦于那些把 OpenEnv 从一个快速增长的项目,变成一个可靠标准的因素:

- 通过数据集实现任务集:将环境任务连接到 Hugging Face 数据集,使环境和基准能够清晰地组合(RFC 006)。

- 外部奖励:允许奖励在你已经使用的任意库中定义,而 OpenEnv 作为部署层(RFC 007)。

- 持续的 Harness 集成:为 agentic harnesses 提供一等支持。

- 端到端示例:在 TRL、Unsloth 以及更多工具中提供完整的训练和评估演练。

- 自动验证:衡量环境质量及其对模型学习的贡献。这将为社区提供一种可扩展的方法来评估他们的环境并提升质量(想想黑客松!)。RFC 008。

OpenEnv 的设计本就以社区为中心,而且现在仍处于早期阶段——请预期它会有一些粗糙之处,也欢迎帮助我们把它们打磨平滑。查看代码和 RFC:github.com/huggingface/OpenEnv

感谢所有帮助推动这次过渡的人。让我们一起构建开源 agentic RL 的共同底座。

来源与参考

  1. 原始链接
  2. The Open Source Community is backing OpenEnv for Agentic RL

收录于 2026-06-09