Patronus AI 融资5000万美元打造智能体压力测试世界

TechCrunch AI·6月26日 04:19 UTC·作者 Marina Temkin

关键信息

Patronus 表示，其“数字世界模型”会复刻网站和内部系统，并在训练后通过强化学习对智能体进行压力测试。该公司称目前主要聚焦软件工程和金融等可验证场景，并认为其主要竞争对手是 AI 实验室内部的评估团队，而不是人类数据公司。

资讯摘要

AI 智能体正在变得越来越强大，正从简单问答转向自主完成复杂的多步骤任务。随着这种变化，模型开发者面临一个更难的问题：如何验证智能体在承担真实工作时是否可靠，例如代用户预订行程或做金融分析。Patronus AI 认为，传统基准测试还不够，因为即使智能体在基准上得分很高，也不能证明它能稳定、正确地完成现实中的工作。Patronus 成立于 2023 年，由前 Meta AI 研究员 Anand Kannappan 和 Rebecca Qian 创立，这家公司正在构建模拟数字环境来评估智能体行为。

它会复刻网站和内部系统，让智能体在多种场景下接受测试，其中也包括一些不可预测的情况。Patronus 还表示，这些模拟环境在训练后阶段尤其有用，因为可以通过强化学习对成功完成任务的行为给予奖励，并对错误进行惩罚。公司在周四宣布完成 5000 万美元 B 轮融资，由 Greenfield Partners 领投，Notable Capital、Lightspeed、Datadog 和 Samsung 参投，使累计融资达到 7000 万美元。公司称过去一年的收入增长了 15 倍，而一位投资者表示，来自前沿 AI 实验室和其他初创公司的需求几乎是“难以满足”的。

资讯正文

AI 代理正变得越来越复杂。它们正在从回答问题，演进到自主执行多步骤的复杂任务。

但在这些代理被信任去代用户预订行程或进行财务分析之前，模型提供商以及构建这类代理的初创公司，希望确保它们能够在极其广泛的场景中稳定可靠地运行。

AI 实验室经常使用基准测试来展示模型的能力，但即便是在面向代理的基准上拿到高分，也并不能真正证明某个 AI 能够正确完成各种复杂的现实世界工作。

Patronus AI 是一家成立于 2023 年的初创公司，由前 Meta AI 研究人员 Anand Kannappan 和 Rebecca Qian 创办。它通过构建模拟数字环境来评估这些代理的表现，帮助模型开发者和公司微调模型，以便它们真正具备完成这类任务的能力。

这家总部位于旧金山的初创公司显然在解决一个重要问题。Notable Capital 董事总经理 Glenn Solomon 表示，几乎所有前沿 AI 实验室以及许多新兴初创公司现在都是它的客户，并称市场对其模拟环境的需求几乎是“无穷无尽”的。

Patronus 的营收在过去一年增长了 15 倍，这也激发了投资者的浓厚兴趣。周四，该公司宣布完成由 Greenfield Partners 领投的 5000 万美元 B 轮融资，Notable Capital、Lightspeed、Datadog 和 Samsung 参投。此次融资使公司的累计融资额达到 7000 万美元。

Patronus 使用其称为“数字世界模型”的技术来创建网站和内部系统的复刻版本。在这些环境中，代理会在使用强化学习训练后接受压力测试；强化学习会反复奖励任务成功完成，并惩罚错误。

AI 实验室认为这些数字模拟极具价值，因为它们让代理有机会尝试不同的、有时甚至不可预测的场景。该公司将自己的方法比作 Waymo 训练自动驾驶汽车的方式：先构建合成世界，测试车辆如何应对罕见危险，例如恶劣天气或一个追着球跑的孩子。

AI 代理的不同之处在于，它们往往会走捷径，这意味着它们无法正确完成任务。Solomon 说：“Patronus 非常擅长识别这些‘作弊手法’，并确保它们让模型承担责任。”

Patronus 目前正在为软件工程和金融领域提供其模拟数字世界，但据 Kannappan 称，这只是开始。

他说：“今天我们非常专注于那些可验证的问题，也就是你可以立即检查和验证的问题，但还有大量其他领域是非常不可验证的，或者极难验证。”

不过，仅仅因为这些流程是可验证的，并不意味着它们很简单。Kannappan 说：“我们希望能够真正创建出这样一种环境：在其中你可以运行一个代理，它能够持续运行 10 个小时，或者 10 天，或者 10 周。”

至于竞争对手，Patronus认为，它主要是在与 AI 实验室已经建立起来、用于评估智能体行为的内部团队竞争。虽然像 Mercor 和 Surge 这样的人工数据公司会通过强化学习帮助模型开发者，但 Patronus 的运作方式不同：它通过在没有任何人工参与的情况下评估智能体的行为来开展工作。

来源与参考

收录于 2026-06-26