AA-Briefcase展示AI在知识工作中的极限

The Decoder·6月19日 21:50 UTC·作者 Maximilian Schreiner

关键信息

Artificial Analysis表示，这项基准使用由数千个碎片化文件拼成的复杂项目，而AA-Briefcase Elo指标则综合了评分规程通过率、分析质量和呈现质量。报告还指出，模型越强，错误类型越不同：较弱模型常常漏掉关键文件或输出不可用结果，而较强模型则更容易满足显性要求，却忽略跨来源整合后才能发现的细节。

资讯摘要

Artificial Analysis发布了AA-Briefcase，这是一项旨在评估AI真实知识工作能力的新基准，而不是只测试狭窄问答能力。该基准围绕长周期、多周项目构建，材料来自数千个碎片化来源文件，包括Slack线程、电子邮件、会议记录和大型数据导出。它的目标是衡量模型处理现实职场中那种杂乱信息整合任务的能力。最引人注目的结果是，即便是表现最好的Claude Fable 5，也只能在3%的任务上完全满足全部评分标准。在91个任务中，有31个任务没有任何模型能达到50%以上的分数。

报告还发现，不同能力水平的模型会以不同方式失败。较弱模型通常卡在基础执行上，比如漏掉相关文件或输出不可用结果。更强的模型虽然能满足表面要求，但仍会错过需要跨多个来源拼接证据才能发现的细节。价格差异同样惊人，单任务成本从DeepSeek V4 Flash的大约0.04美元，到Claude Fable 5的31美元以上不等。总体来看，这些结果表明，当前前沿模型距离大规模、可靠地胜任真实知识工作仍然很远。

资讯正文

新基准揭示了 AI 在真实知识工作中的糟糕表现有多严重

即便是最强的 AI 模型，在现实中的知识工作任务上也会失手，只能完全解决 3% 的任务。

Artificial Analysis 推出的新基准 AA-Briefcase，会让 AI 模型接受为期数周的知识工作项目考验。这些项目由成千上万份碎片化的源文件构成，例如 Slack 线程、电子邮件、会议记录，以及大型数据导出文件。表现最好的 Claude Fable 5 取得了最高的评分标准通过率，但即便如此，它也只能在 3% 的任务上满足所有标准。91 个任务中有 31 个，甚至没有任何模型能达到 50% 的通过率。

随着模型能力提升，错误类型也会发生变化。较弱的模型会在基础执行上卡壳，因为它们会漏掉相关文件，或者给出无法使用的结果。更强的模型则会以更隐蔽的方式失败：它们能满足显而易见的要求，却会遗漏那些只有将来自多个来源的信息拼接起来才能发现的细节。

价格差距也同样巨大：按单个任务计算，成本跨度超过 800 倍，从 DeepSeek V4 Flash 的约 0.04 美元，到 Claude Fable 5 的 31 美元以上。

来源与参考

收录于 2026-06-20