CEO-Bench显示大多数AI创业公司会失败
The Decoder··作者 Maximilian Schreiner
关键信息
CEO-Bench 模拟了一家名为 NovaMind 的初创公司,起始时没有客户、账户里有一百万美元,并通过 Python API 提供34个工具和19张数据库表。代理需要处理定价、广告、研发、基础设施、客服和企业谈判,还要应对噪声较大的外部信号;如果现金余额跌破零,测试会立刻结束。
资讯摘要
普林斯顿大学研究人员设计了 CEO-Bench,用来评估AI代理是否具备现实企业管理所需的那种长期、不确定条件下的决策能力。这个基准模拟的是一家名为 NovaMind 的虚构订阅软件公司,时间跨度为500天。代理从零客户和一百万美元现金开始,唯一的评分标准是结束时剩余多少资金;如果现金在过程中任何时刻跌破零,公司就会破产并立即结束模拟。系统通过 Python API 向代理开放了34个工具,并提供19张数据库表,代理可以自己写代码、用 SQL 查询数据,还能根据结果构建自定义工作流。
它必须同时处理定价、产品档位、广告投放、产品质量、研发、基础设施、客服以及企业客户谈判等相互关联的决策。模拟环境里还包含一个社交网络,代理可以读取投诉、竞争对手新闻和经济趋势,也可以自己发帖。研究人员认为,这类任务与窄范围的AI代理基准本质不同,因为企业结果取决于延迟反馈、隐藏变量和不断变化的外部环境。报道结果显示,在14个测试模型中,大多数最终都没有超过初始资金,而一个不使用AI的简单规则启发式方法反而击败了几乎所有模型。

资讯正文
普林斯顿大学的研究人员构建了 CEO-Bench,这是一个测试,要求 AI 代理在 500 个模拟日里经营一家虚构的软件公司。当前大多数模型最终都会亏损,而且一个不使用 AI 的简单基于规则的启发式方法,表现优于它们几乎全部。
AI 代理在狭窄任务上正变得越来越强:修复漏洞、在对话中遵循服务政策,或者完成一个基于网页的工作流程。普林斯顿大学这项研究认为,这些任务有一个简单的共同结构:代理获得明确目标,短暂行动,并收到快速反馈。许多重要的现实世界任务并不是这样。它们涉及在不确定性下的一连串长期决策,需要你确定优先级、分配有限资源、读取噪声信号,并适应不断变化的条件。
为了准确测试这些能力,研究人员开发了 CEO-Bench。这个基准模拟了这类长周期任务的一个现实示例:经营一家初创公司 500 个模拟日。
研究人员提到了一个著名案例:1997 年,苹果距离破产只剩 90 天。史蒂夫·乔布斯画了一个简单的二维网格——消费级与专业级、台式与便携——并决定苹果只为这四个象限开发产品。随后便有了 iMac、iPod 和 iPhone。
作者认为,这种战略性引导智能与当下 AI 代理的能力根本不同。代理在单项任务上的进步很快,但把整个组织引导向长期目标?那完全是另一个问题。CEO-Bench 是首次尝试精确衡量这种“引导智能”。
一位虚构软件公司的 AI CEO
在 CEO-Bench 中,一个代理负责经营一家名为 NovaMind 的虚构订阅软件公司。它从零客户和 100 万美元现金起步。绩效以期末剩余现金衡量。如果余额哪怕有一次跌破零,公司就破产,模拟结束。
代理通过一个包含 34 个工具和 19 张表的 Python API 来控制公司。它不只是发出单个命令,而是编写自己的代码,用 SQL 查询数据库,并基于结果构建自定义工作流。研究人员表示,这让它面对的挑战与人类 CEO 所面临的挑战相同。
需要决定的事情很多:定价和套餐、跨渠道广告投放、产品质量和研发、基础设施容量和客户支持,以及与企业客户的多轮谈判。除此之外,还有一个模拟社交网络,代理可以在其中阅读投诉、竞争对手新闻和经济趋势,也可以自行发帖。
延迟反馈和隐藏变量让测试变得困难
这项任务的难点在于时间和不确定性。决策会沿着真实的商业时间线展开:收入只会在计费日期到来,研发项目需要数天到数周,错误往往要到后期才会通过客户流失或声誉受损显现出来。成本则会立即发生。代理必须先花钱,而回报可能要几周后才会出现。
公司的许多状态都会被隐藏起来。智能体无法直接看到客户满意度、付费意愿或最低质量预期。它必须从一些噪声信号中把这些信息拼凑出来,比如取消订阅、支持工单,或者社交网络上的反应。该模拟模型涵盖26个客户细分群体和单个客户,每个都有各自的预算、价格敏感度和预期。
世界也在不断变化。竞争对手会定期提高客户对质量的预期,偏好会随着时间推移而转变,而模拟的商业周期会影响需求和付费意愿,因此智能体必须持续调整。
研究人员刻意选择了固定、透明的规则,而不是用语言模型来担任裁判。他们希望避免自己在 Vending-Bench 中看到的一种弱点——那是一个模拟自动售货机的测试:在那里,AI 模拟的供应商可能会因为不切实际的口头承诺而奖励智能体。
大多数模型都会破产
在接受测试的14个模型中,大多数都没能完成任务。几乎所有模型都能生成有效的命令和数据库查询,但没有一个能长期保持连贯的策略。许多模型在模拟结束前就已经破产。
只有三个模型在最佳运行中以高于100万美元初始资金的水平收官:Claude Fable 5 达到4715万美元,Claude Opus 4.8 达到2780万美元,GPT-5.5 达到2130万美元。Claude Fable 5 也是唯一一个在不止一次运行中都高于初始资金的模型。
不过,这里有一个注意事项。Fable 5 的一次运行因模型拒绝继续而中止,另外两次运行中,部分请求回退到了 Opus 4.8。GPT-5.5 在三次运行中有两次破产。
最能说明问题的对比,是一个完全不调用语言模型的简单规则启发式方法。它设定固定价格、配额和层级,把广告和定向开发集中在少数几个客户细分群体上,并根据近期使用情况调整产能。这个启发式方法最终达到1576万美元,除了 Fable 5、Opus 4.8 和 GPT-5.5 之外,超过了所有模型。
研究人员还粗略估计,可实现的最终现金上限大约为22亿美元。即便是最好的智能体,也远远没有接近这一水平。作者表示,这项测试距离上限还差得很远。
探索胜过谨慎
分析决策轨迹后,可以看到明显的行为差异。GPT-5.5 和 Claude Opus 4.8 会随着条件变化不断尝试新策略,无论是加大客户获取力度、调整层级,还是转移支持与研发预算。相比之下,Claude Opus 4.7 主要通过削减成本和保住现金来应对挫折。这种被动策略让模型活到了最后,但没能带来盈利。
研究人员测量了四项与成功相关的能力:
- 发现隐藏信息,例如针对特定客户群体,哪种广告渠道效果最好;
- 预测未来,以四周现金流预测误差为衡量标准;
- 快速适应变化,以模型察觉竞争对手动作的速度为衡量标准;
- 以及提前规划,部分以智能体笔记中出现 if-then 场景的频率来衡量。
在这四项指标上,Opus 4.8 和 GPT-5.5 的得分都高于其他模型的平均水平。
工具环境同样很重要
另一项发现涉及智能体用于执行操作的软件环境。研究人员还测试了 Claude Opus 4.7 搭配 Claude Code,以及 GPT-5.5 搭配 Codex 这两款流行的编码助手。在这两种情况下,智能体的实际操作频率都低得多,表现也更差。研究人员怀疑,这些工具中为软件开发调优的系统提示词是原因所在。
缩短时间范围也无法解决问题。当模拟压缩到 50 天时,只有 GPT-5.5 能够最终实现盈利。研究人员得出的结论是,大多数模型即便在短期目标下,协调决策的能力仍然较弱。
作者承认其设置存在局限。由于他们没有找到可靠的方法来评估定性的产品变化,产品仅以单一质量分数表示。为保持每次运行在经济上可行,合规、安全和融资都被排除在外。尽管如此,他们表示,CEO-Bench 仍揭示了当今模型在本地工具能力与将长期时间跨度上的行动连接成连贯战略的能力之间存在的鸿沟。
来源与参考
收录于 2026-06-29