Patronus AI 融资5000万美元打造智能体压力测试世界
TechCrunch AI··作者 Marina Temkin
关键信息
Patronus 表示,其“数字世界模型”会复刻网站和内部系统,并在训练后通过强化学习对智能体进行压力测试。该公司称目前主要聚焦软件工程和金融等可验证场景,并认为其主要竞争对手是 AI 实验室内部的评估团队,而不是人类数据公司。
资讯摘要
AI 智能体正在变得越来越强大,正从简单问答转向自主完成复杂的多步骤任务。随着这种变化,模型开发者面临一个更难的问题:如何验证智能体在承担真实工作时是否可靠,例如代用户预订行程或做金融分析。Patronus AI 认为,传统基准测试还不够,因为即使智能体在基准上得分很高,也不能证明它能稳定、正确地完成现实中的工作。Patronus 成立于 2023 年,由前 Meta AI 研究员 Anand Kannappan 和 Rebecca Qian 创立,这家公司正在构建模拟数字环境来评估智能体行为。
它会复刻网站和内部系统,让智能体在多种场景下接受测试,其中也包括一些不可预测的情况。Patronus 还表示,这些模拟环境在训练后阶段尤其有用,因为可以通过强化学习对成功完成任务的行为给予奖励,并对错误进行惩罚。公司在周四宣布完成 5000 万美元 B 轮融资,由 Greenfield Partners 领投,Notable Capital、Lightspeed、Datadog 和 Samsung 参投,使累计融资达到 7000 万美元。公司称过去一年的收入增长了 15 倍,而一位投资者表示,来自前沿 AI 实验室和其他初创公司的需求几乎是“难以满足”的。

资讯正文
AI 代理正变得越来越复杂。它们正在从回答问题,演进到自主执行多步骤的复杂任务。
但在这些代理被信任去代用户预订行程或进行财务分析之前,模型提供商以及构建这类代理的初创公司,希望确保它们能够在极其广泛的场景中稳定可靠地运行。
AI 实验室经常使用基准测试来展示模型的能力,但即便是在面向代理的基准上拿到高分,也并不能真正证明某个 AI 能够正确完成各种复杂的现实世界工作。
Patronus AI 是一家成立于 2023 年的初创公司,由前 Meta AI 研究人员 Anand Kannappan 和 Rebecca Qian 创办。它通过构建模拟数字环境来评估这些代理的表现,帮助模型开发者和公司微调模型,以便它们真正具备完成这类任务的能力。
这家总部位于旧金山的初创公司显然在解决一个重要问题。Notable Capital 董事总经理 Glenn Solomon 表示,几乎所有前沿 AI 实验室以及许多新兴初创公司现在都是它的客户,并称市场对其模拟环境的需求几乎是“无穷无尽”的。
Patronus 的营收在过去一年增长了 15 倍,这也激发了投资者的浓厚兴趣。周四,该公司宣布完成由 Greenfield Partners 领投的 5000 万美元 B 轮融资,Notable Capital、Lightspeed、Datadog 和 Samsung 参投。此次融资使公司的累计融资额达到 7000 万美元。
Patronus 使用其称为“数字世界模型”的技术来创建网站和内部系统的复刻版本。在这些环境中,代理会在使用强化学习训练后接受压力测试;强化学习会反复奖励任务成功完成,并惩罚错误。
AI 实验室认为这些数字模拟极具价值,因为它们让代理有机会尝试不同的、有时甚至不可预测的场景。该公司将自己的方法比作 Waymo 训练自动驾驶汽车的方式:先构建合成世界,测试车辆如何应对罕见危险,例如恶劣天气或一个追着球跑的孩子。
AI 代理的不同之处在于,它们往往会走捷径,这意味着它们无法正确完成任务。Solomon 说:“Patronus 非常擅长识别这些‘作弊手法’,并确保它们让模型承担责任。”
Patronus 目前正在为软件工程和金融领域提供其模拟数字世界,但据 Kannappan 称,这只是开始。
他说:“今天我们非常专注于那些可验证的问题,也就是你可以立即检查和验证的问题,但还有大量其他领域是非常不可验证的,或者极难验证。”
不过,仅仅因为这些流程是可验证的,并不意味着它们很简单。Kannappan 说:“我们希望能够真正创建出这样一种环境:在其中你可以运行一个代理,它能够持续运行 10 个小时,或者 10 天,或者 10 周。”
至于竞争对手,Patronus认为,它主要是在与 AI 实验室已经建立起来、用于评估智能体行为的内部团队竞争。虽然像 Mercor 和 Surge 这样的人工数据公司会通过强化学习帮助模型开发者,但 Patronus 的运作方式不同:它通过在没有任何人工参与的情况下评估智能体的行为来开展工作。
来源与参考
收录于 2026-06-26