Anthropic如何衡量AI在工作中的理论能力
Ars Technica AI··作者 Kyle Orland
关键信息
“理论能力”指标依赖于推测性假设,而非当前模型的实际表现,并且假设如果AI理论上能完成某项任务,它最终就会取代人类工作者——这是一个有缺陷的假设,因为现实世界中的采用障碍(如成本、监管和流程整合)可能限制其落地。
资讯摘要
Anthropic发布了一份报告,显示大型语言模型(LLM)在多个职业中理论上可以完成80%甚至更多的具体任务,包括艺术媒体、法律和管理等领域。然而,这一数据并非来自Anthropic自身的测试,而是来自2023年由OpenAI和宾夕法尼亚大学合著的一项研究。
该方法通过将工作分解为离散任务,并基于认知特征和访谈数据估计AI的适配度。尽管图表暗示了巨大的自动化潜力,但作者强调,这并不意味着这些工作很快会被完全替代——现实因素如采用成本、法规和组织准备程度对实际实施起着重要作用。

资讯正文
如果关注人工智能日益增长的经济影响,你可能已经看到本月流传的以下图表。它来自Anthropic关于人工智能对劳动力市场影响的报告,旨在比较22个职业类别中,当前职业对大型语言模型(LLM)的‘实际暴露程度’(红色)与这些相同LLM的‘理论能力’(蓝色)。
虽然当前的‘实际暴露程度’区域本身也很有趣,但蓝色的‘理论能力’更引人注目。从图中一眼可以看出,至少理论上,基于大语言模型的系统能够完成广泛人类职业中至少80%的个体工作任务——涵盖范围之广令人惊讶。看起来,Anthropic预测大语言模型最终将能胜任从‘艺术与媒体’、‘办公室与行政’到‘法律、商业与金融’,甚至‘管理’等广泛职业领域的大部分工作。
然而,深入探究这些‘理论能力’数据的基础后,AI未来对职业的影响似乎并没有那么可怕。当你仔细分析具体细节时,那个蓝色区域实际上代表了一些过时且高度推测性的判断,即AI可能提升人类生产力的方向,而不是AI将完全取代人类工作的方向。
目前AI所能达到的2023年水平
Anthropic在此引用的LLM‘理论能力’基准,并非基于该公司对其现有模型的实证测试或可量化的性能提升预测。相反,Anthropic引用的是2023年8月发布的一份报告,题为《GPTs是GPTs:大语言模型对劳动力市场潜在影响的早期观察》,该报告由OpenAI、OpenResearch和宾夕法尼亚大学的研究人员共同撰写。
来源与参考
收录于 2026-04-01