500位投资银行家评审AI输出:无一达到客户交付标准

The Decoder··作者 Jonathan Kemper

关键信息

该基准包含100个端到端任务,要求Excel模型、PPT演示文稿和报告;GPT-5.4得分最高,但仍有一半标准未达标,仅16%的输出被认为可作为起点使用。

资讯摘要

Handshake AI与麦吉尔大学的研究人员推出了BankerToolBench,这是一个开源基准,用于评估AI代理在100个真实投资银行任务中的表现。来自高盛、摩根大通等机构的500多名专业人士评审了输出结果,发现没有任何一个模型适合直接交付给客户。虽然大多数银行家表示愿意将AI作为起点使用,但GPT-5.4和Claude Opus 4.6等模型存在严重缺陷——如Excel模型中硬编码数值或错误的业务逻辑——这使得它们无法可靠使用。

评估采用了基于Gemini 3 Flash Preview的自定义验证器(Gandalf),其与人类评审者的判断一致率为88.2%。这些发现表明,当前的大语言模型在涉及数据解析、工具调用和合规性的复杂多步骤流程中缺乏稳健性。

500位投资银行家评审AI输出:无一达到客户交付标准

资讯正文

500名投资银行家审查AI输出结果,发现没有一个适合直接交付客户

一项新基准测试让GPT-5.4和Claude Opus 4.6等顶级模型承担起初级投资银行家日常处理的任务。结果显示,没有任何一个输出结果被认为可以直接发送给客户。不过,超过一半的银行家表示,他们愿意将其作为工作起点。

Handshake AI与麦吉尔大学的研究团队发布了BankerToolBench,这是一个开源基准测试工具,用于评估AI代理在初级投资银行家典型工作流程中的表现。

Handshake AI是职业平台Handshake的商业部门,该平台将经过筛选的学者和专业人士派驻到AI实验室,协助训练和评估模型。研究团队对九个当前最先进的模型进行了测试,参与测试的银行家们给出了明确结论:这些模型的输出均不适合用于客户交付。

研究团队邀请了来自高盛、摩根大通、艾维科、摩根士丹利和拉扎德等公司的约500名在职及前投资银行家参与。其中172人亲自设计了测试任务,累计投入超过5700小时的工作时间。每个任务平均需要人类银行家花费五小时完成,有些甚至长达21小时。

不仅仅是文本答案,而是真实的Excel模型

BankerToolBench评估的是初级银行家会提交给主管的实际成果:包含有效公式的Excel财务模型、用于客户会议的PowerPoint演示文稿、PDF报告以及Word备忘录。

这些AI代理必须深入数据室查找资料,从FactSet和Capital IQ等市场数据平台提取信息,并解析美国证券交易委员会(SEC)的文件。根据论文描述,单个任务可能触发多达539次语言模型调用,其中97%与工具使用或代码执行相关。

每份产出成果都会依据由银行家设计的评分标准进行审核,平均包含150项具体指标。这些指标涵盖六个方面,包括技术准确性、客户可用性、合规性、可审计性以及文件间的一致性。

评分由作者开发的AI验证器Gandalf完成,其基于Gemini 3 Flash Preview版本。该AI验证器与人类评审员的一致率为88.2%,略高于两名人类评审员之间84.6%的一致率。

GPT-5.4领先,但仍未达标

没有任何一个模型的输出被认定为可直接提交。以GPT-5.4为例,仅有2%的任务完全满足所有关键权重标准;而Gemini 2.5 Pro则为零。

外表光鲜,内里却问题重重

根据研究人员的说法,Claude Opus 4.6 的输出初看似乎很专业,但 Excel 模型暴露出一个根本性缺陷:大多数关键数据都是硬编码的固定值,而不是通过公式计算得出。论文指出,这在投资银行领域是致命问题,因为它使得情景分析无法进行——更改模型中的购买价格后,其他任何内容都不会更新。Claude Opus 4.5 也存在同样的问题。

对 GPT-5.4 的代理行为分析揭示了四种反复出现的失败模式。最常见的占 41%,即代码和公式生成中的错误:代理调用不存在的 python-pptx 函数,而不是修复底层问题,而是直接删除出错的代码行。

在 27% 的情况下,业务逻辑失效,例如将成本协同效应加到了收入线上,而不是成本项上;另有 18% 的错误源于中断的数据查询;还有 13% 的情况则是代理捏造缺失数据并将其伪装成真实来源。

一些细微错误容易被忽视

论文中的例子展示了这些失败多么隐蔽。在一个生成的演示文稿中,验证者发现同一时间段内某张幻灯片上的收入为 1895 亿美元,而下一张却变成了 2010 亿美元。

另一个案例中,尽管银行的设计规范要求统一使用蓝色,代理却用了 Netflix 红色作为配色;在一项医药并购交易的竞争分析中,当 SEC 数据库未找到相关信息时,代理伪造了具体的临床试验数据。

总体而言,这些模型在 PowerPoint 任务上的表现优于 Excel 工作。最困难的任务集中在债务资本市场、合并模型和资本结构表格方面。研究团队认为部分原因是缺少领域知识;当任务融入银行人员视为理所当然的背景信息时,得分显著提高。

也可作为训练工具

作者指出,BankerToolBench 还可用于强化学习实验。在 Qwen-3-4B 和 32B 的测试中,Dr. GRPO 和 DPO 方法使基准性能提升了五到十三倍,尽管基础分数非常低。

该团队也指出了几个局限:此基准主要聚焦美国市场,缺乏保密交易信息,且未能体现真实银行内部的迭代式团队协作。即便如此,作者仍称这是迄今为止对 AI 代理能否胜任高要求知识工作的最详细测试之一。目前的答案是否定的。完整的基准测试(包括数据、评分标准和验证器)已公开可用。

这些发现与其他近期研究一致。Vals.ai 与一家全球系统重要性银行合作开展的研究显示,OpenAI 的 o3 在金融分析任务上的准确率仅为 48.3%。加州大学伯克利分校的研究得出结论,真正将代理投入生产环境的团队依赖的是简单、高度受控的设置,步骤极少。卡内基梅隆大学与斯坦福大学的一项分析则指出,代理开发过度集中于编程任务,导致管理学、法律和金融等经济重要领域几乎完全缺席于现有基准测试中。

与此同时,Anthropic等AI实验室正在努力解决BankerToolBench所暴露的弱点。Anthropic最近推出了一项功能,使Claude能够自动在Excel和PowerPoint之间切换;Cowork插件现在还能将FactSet、MSCI和LSEG等市场数据服务直接接入工作流程。

不带炒作的AI新闻——由人类精选

订阅THE DECODER以获得无广告阅读体验、每周AI通讯、我们独家的六次/年“AI雷达”前沿报告、完整档案访问权限以及评论区访问权限。

来源与参考

  1. 原始链接
  2. 500 investment bankers review AI outputs and find none ready for client delivery

收录于 2026-04-27