500位投资银行家评审AI输出：无一达到客户交付标准

The Decoder·4月26日 17:18 UTC·作者 Jonathan Kemper

关键信息

该基准包含100个端到端任务，要求Excel模型、PPT演示文稿和报告；GPT-5.4得分最高，但仍有一半标准未达标，仅16%的输出被认为可作为起点使用。

资讯摘要

Handshake AI与麦吉尔大学的研究人员推出了BankerToolBench，这是一个开源基准，用于评估AI代理在100个真实投资银行任务中的表现。来自高盛、摩根大通等机构的500多名专业人士评审了输出结果，发现没有任何一个模型适合直接交付给客户。虽然大多数银行家表示愿意将AI作为起点使用，但GPT-5.4和Claude Opus 4.6等模型存在严重缺陷——如Excel模型中硬编码数值或错误的业务逻辑——这使得它们无法可靠使用。

评估采用了基于Gemini 3 Flash Preview的自定义验证器（Gandalf），其与人类评审者的判断一致率为88.2%。这些发现表明，当前的大语言模型在涉及数据解析、工具调用和合规性的复杂多步骤流程中缺乏稳健性。

资讯正文

500名投资银行家审查AI输出结果，发现没有一个适合直接交付客户

一项新基准测试让GPT-5.4和Claude Opus 4.6等顶级模型承担起初级投资银行家日常处理的任务。结果显示，没有任何一个输出结果被认为可以直接发送给客户。不过，超过一半的银行家表示，他们愿意将其作为工作起点。

Handshake AI与麦吉尔大学的研究团队发布了BankerToolBench，这是一个开源基准测试工具，用于评估AI代理在初级投资银行家典型工作流程中的表现。

Handshake AI是职业平台Handshake的商业部门，该平台将经过筛选的学者和专业人士派驻到AI实验室，协助训练和评估模型。研究团队对九个当前最先进的模型进行了测试，参与测试的银行家们给出了明确结论：这些模型的输出均不适合用于客户交付。

研究团队邀请了来自高盛、摩根大通、艾维科、摩根士丹利和拉扎德等公司的约500名在职及前投资银行家参与。其中172人亲自设计了测试任务，累计投入超过5700小时的工作时间。每个任务平均需要人类银行家花费五小时完成，有些甚至长达21小时。

不仅仅是文本答案，而是真实的Excel模型

BankerToolBench评估的是初级银行家会提交给主管的实际成果：包含有效公式的Excel财务模型、用于客户会议的PowerPoint演示文稿、PDF报告以及Word备忘录。

这些AI代理必须深入数据室查找资料，从FactSet和Capital IQ等市场数据平台提取信息，并解析美国证券交易委员会（SEC）的文件。根据论文描述，单个任务可能触发多达539次语言模型调用，其中97%与工具使用或代码执行相关。

每份产出成果都会依据由银行家设计的评分标准进行审核，平均包含150项具体指标。这些指标涵盖六个方面，包括技术准确性、客户可用性、合规性、可审计性以及文件间的一致性。

评分由作者开发的AI验证器Gandalf完成，其基于Gemini 3 Flash Preview版本。该AI验证器与人类评审员的一致率为88.2%，略高于两名人类评审员之间84.6%的一致率。

GPT-5.4领先，但仍未达标

没有任何一个模型的输出被认定为可直接提交。以GPT-5.4为例，仅有2%的任务完全满足所有关键权重标准；而Gemini 2.5 Pro则为零。

外表光鲜，内里却问题重重

根据研究人员的说法，Claude Opus 4.6 的输出初看似乎很专业，但 Excel 模型暴露出一个根本性缺陷：大多数关键数据都是硬编码的固定值，而不是通过公式计算得出。论文指出，这在投资银行领域是致命问题，因为它使得情景分析无法进行——更改模型中的购买价格后，其他任何内容都不会更新。Claude Opus 4.5 也存在同样的问题。

对 GPT-5.4 的代理行为分析揭示了四种反复出现的失败模式。最常见的占 41%，即代码和公式生成中的错误：代理调用不存在的 python-pptx 函数，而不是修复底层问题，而是直接删除出错的代码行。

在 27% 的情况下，业务逻辑失效，例如将成本协同效应加到了收入线上，而不是成本项上；另有 18% 的错误源于中断的数据查询；还有 13% 的情况则是代理捏造缺失数据并将其伪装成真实来源。

一些细微错误容易被忽视

论文中的例子展示了这些失败多么隐蔽。在一个生成的演示文稿中，验证者发现同一时间段内某张幻灯片上的收入为 1895 亿美元，而下一张却变成了 2010 亿美元。

另一个案例中，尽管银行的设计规范要求统一使用蓝色，代理却用了 Netflix 红色作为配色；在一项医药并购交易的竞争分析中，当 SEC 数据库未找到相关信息时，代理伪造了具体的临床试验数据。

总体而言，这些模型在 PowerPoint 任务上的表现优于 Excel 工作。最困难的任务集中在债务资本市场、合并模型和资本结构表格方面。研究团队认为部分原因是缺少领域知识；当任务融入银行人员视为理所当然的背景信息时，得分显著提高。

也可作为训练工具

作者指出，BankerToolBench 还可用于强化学习实验。在 Qwen-3-4B 和 32B 的测试中，Dr. GRPO 和 DPO 方法使基准性能提升了五到十三倍，尽管基础分数非常低。

该团队也指出了几个局限：此基准主要聚焦美国市场，缺乏保密交易信息，且未能体现真实银行内部的迭代式团队协作。即便如此，作者仍称这是迄今为止对 AI 代理能否胜任高要求知识工作的最详细测试之一。目前的答案是否定的。完整的基准测试（包括数据、评分标准和验证器）已公开可用。

这些发现与其他近期研究一致。Vals.ai 与一家全球系统重要性银行合作开展的研究显示，OpenAI 的 o3 在金融分析任务上的准确率仅为 48.3%。加州大学伯克利分校的研究得出结论，真正将代理投入生产环境的团队依赖的是简单、高度受控的设置，步骤极少。卡内基梅隆大学与斯坦福大学的一项分析则指出，代理开发过度集中于编程任务，导致管理学、法律和金融等经济重要领域几乎完全缺席于现有基准测试中。

与此同时，Anthropic等AI实验室正在努力解决BankerToolBench所暴露的弱点。Anthropic最近推出了一项功能，使Claude能够自动在Excel和PowerPoint之间切换；Cowork插件现在还能将FactSet、MSCI和LSEG等市场数据服务直接接入工作流程。

不带炒作的AI新闻——由人类精选

订阅THE DECODER以获得无广告阅读体验、每周AI通讯、我们独家的六次/年“AI雷达”前沿报告、完整档案访问权限以及评论区访问权限。

来源与参考

收录于 2026-04-27