Anthropic如何衡量AI在工作中的理论能力

Ars Technica AI·3月31日 22:01 UTC·作者 Kyle Orland

关键信息

“理论能力”指标依赖于推测性假设，而非当前模型的实际表现，并且假设如果AI理论上能完成某项任务，它最终就会取代人类工作者——这是一个有缺陷的假设，因为现实世界中的采用障碍（如成本、监管和流程整合）可能限制其落地。

资讯摘要

Anthropic发布了一份报告，显示大型语言模型（LLM）在多个职业中理论上可以完成80%甚至更多的具体任务，包括艺术媒体、法律和管理等领域。然而，这一数据并非来自Anthropic自身的测试，而是来自2023年由OpenAI和宾夕法尼亚大学合著的一项研究。

该方法通过将工作分解为离散任务，并基于认知特征和访谈数据估计AI的适配度。尽管图表暗示了巨大的自动化潜力，但作者强调，这并不意味着这些工作很快会被完全替代——现实因素如采用成本、法规和组织准备程度对实际实施起着重要作用。

资讯正文

如果关注人工智能日益增长的经济影响，你可能已经看到本月流传的以下图表。它来自Anthropic关于人工智能对劳动力市场影响的报告，旨在比较22个职业类别中，当前职业对大型语言模型（LLM）的‘实际暴露程度’（红色）与这些相同LLM的‘理论能力’（蓝色）。

虽然当前的‘实际暴露程度’区域本身也很有趣，但蓝色的‘理论能力’更引人注目。从图中一眼可以看出，至少理论上，基于大语言模型的系统能够完成广泛人类职业中至少80%的个体工作任务——涵盖范围之广令人惊讶。看起来，Anthropic预测大语言模型最终将能胜任从‘艺术与媒体’、‘办公室与行政’到‘法律、商业与金融’，甚至‘管理’等广泛职业领域的大部分工作。

然而，深入探究这些‘理论能力’数据的基础后，AI未来对职业的影响似乎并没有那么可怕。当你仔细分析具体细节时，那个蓝色区域实际上代表了一些过时且高度推测性的判断，即AI可能提升人类生产力的方向，而不是AI将完全取代人类工作的方向。

目前AI所能达到的2023年水平

Anthropic在此引用的LLM‘理论能力’基准，并非基于该公司对其现有模型的实证测试或可量化的性能提升预测。相反，Anthropic引用的是2023年8月发布的一份报告，题为《GPTs是GPTs：大语言模型对劳动力市场潜在影响的早期观察》，该报告由OpenAI、OpenResearch和宾夕法尼亚大学的研究人员共同撰写。

来源与参考

收录于 2026-04-01