AA-Briefcase展示AI在知识工作中的极限
The Decoder··作者 Maximilian Schreiner
关键信息
Artificial Analysis表示,这项基准使用由数千个碎片化文件拼成的复杂项目,而AA-Briefcase Elo指标则综合了评分规程通过率、分析质量和呈现质量。报告还指出,模型越强,错误类型越不同:较弱模型常常漏掉关键文件或输出不可用结果,而较强模型则更容易满足显性要求,却忽略跨来源整合后才能发现的细节。
资讯摘要
Artificial Analysis发布了AA-Briefcase,这是一项旨在评估AI真实知识工作能力的新基准,而不是只测试狭窄问答能力。该基准围绕长周期、多周项目构建,材料来自数千个碎片化来源文件,包括Slack线程、电子邮件、会议记录和大型数据导出。它的目标是衡量模型处理现实职场中那种杂乱信息整合任务的能力。最引人注目的结果是,即便是表现最好的Claude Fable 5,也只能在3%的任务上完全满足全部评分标准。在91个任务中,有31个任务没有任何模型能达到50%以上的分数。
报告还发现,不同能力水平的模型会以不同方式失败。较弱模型通常卡在基础执行上,比如漏掉相关文件或输出不可用结果。更强的模型虽然能满足表面要求,但仍会错过需要跨多个来源拼接证据才能发现的细节。价格差异同样惊人,单任务成本从DeepSeek V4 Flash的大约0.04美元,到Claude Fable 5的31美元以上不等。总体来看,这些结果表明,当前前沿模型距离大规模、可靠地胜任真实知识工作仍然很远。

资讯正文
新基准揭示了 AI 在真实知识工作中的糟糕表现有多严重
即便是最强的 AI 模型,在现实中的知识工作任务上也会失手,只能完全解决 3% 的任务。
Artificial Analysis 推出的新基准 AA-Briefcase,会让 AI 模型接受为期数周的知识工作项目考验。这些项目由成千上万份碎片化的源文件构成,例如 Slack 线程、电子邮件、会议记录,以及大型数据导出文件。表现最好的 Claude Fable 5 取得了最高的评分标准通过率,但即便如此,它也只能在 3% 的任务上满足所有标准。91 个任务中有 31 个,甚至没有任何模型能达到 50% 的通过率。
随着模型能力提升,错误类型也会发生变化。较弱的模型会在基础执行上卡壳,因为它们会漏掉相关文件,或者给出无法使用的结果。更强的模型则会以更隐蔽的方式失败:它们能满足显而易见的要求,却会遗漏那些只有将来自多个来源的信息拼接起来才能发现的细节。
价格差距也同样巨大:按单个任务计算,成本跨度超过 800 倍,从 DeepSeek V4 Flash 的约 0.04 美元,到 Claude Fable 5 的 31 美元以上。
来源与参考
收录于 2026-06-20