人工智能效率提升常无法转化为实际经济效益

The Decoder··作者 Maximilian Schreiner

关键信息

研究显示AI使任务完成速度提高14%至55%,但验证成本(如手动审查代码或修正幻觉)可能抵消效率提升;若缺乏人机协同设计,自动化尝试反而会适得其反。

资讯摘要

生成式AI在多个行业明显加速了单个任务——从客户服务到软件开发——但这种提速并不会自动转化为企业级的生产力提升。主要障碍包括高昂的验证成本(例如开发者花时间检查AI生成的代码)、缺乏有意义的经济指标以及组织对知识型工作难以量化的问题。即使模型在狭窄基准测试中表现优异,现实中的工作流程包含一系列子任务、审批和中断,削弱了AI的整体效益。

越来越多的证据表明,试图完全自动化任务的团队往往因调试和监督负担而效率下降。从AI辅助任务完成到实际商业价值的路径复杂,需要更佳的整合策略、清晰的KPI和文化准备。

人工智能效率提升常无法转化为实际经济效益

资讯正文

前沿雷达 #2:为什么人工智能生产力在基准测试与财务报表之间消失

生成式AI在许多任务上带来了可衡量的时间节省。但更快完成任务与可衡量的经济影响之间仍存在差距。验证成本、有限的指标以及组织惯性常常阻碍基准测试成果转化为更广泛的生产力提升。

每六个月,THE DECODER 的编辑团队会在其名为“前沿雷达”的系列中深入探讨一个基础的人工智能话题,该系列以邮件形式发布,并独家在此网站上提供给 THE DECODER 订阅者。这是第 #2 期,聚焦人工智能对生产力的实际影响。第 #1 期则探讨了代理型AI的现状。

人工智能正在加速许多任务。如今已有足够多的研究支持这一点,以至于很难严肃地否认。更关键的问题是:为何如此多的速度提升并未体现在企业财报和宏观经济数据中?

我们认为,争论往往在某个关键点上走偏了方向。它把从更快完成单个任务到真正创造价值的过程视为理所当然。实际上,这才是最难的部分。在这两者之间存在着流程、激励机制、验证负担,以及一个简单的事实:许多公司根本不会直接衡量知识型工作的生产力。

当前研究同时支持两个看似矛盾的说法:在个体任务层面,有充分证据表明人工智能带来了显著收益;而在整个公司层面,甚至更广泛的经济层面,这些收益却显得微弱且难以量化。

任务层面的证据比许多人想象的更强

关于宏观经济生产力数据的争论忽略了一个重要事实:在个体任务层面,最著名的几项研究提供了明确的可测量绩效提升证据。

在客户服务领域,《经济学季刊》发表的一项研究发现,在引入生成式AI助手后,每小时解决的问题数量提高了约14%至15%。经验较少的员工受益最多。早在2023年,Noy 和 Zhang 就发现,ChatGPT 显著减少了专业写作任务的平均完成时间并提升了质量。

软件开发领域的结果也呈现相同趋势。早期 GitHub Copilot 的一项研究显示,在一个明确界定的编码任务中,完成速度提高了55.8%。在微软、埃森哲及一家财富百强公司的三项实地实验中,使用AI辅助后,任务完成数量平均增加了约26%。在谷歌进行的一项随机实验中,开发者的工作效率最高提升了20%。

其中许多研究年代较早,使用的是能力较弱的模型。此后,像 Claude Code 这样的专用编码工具已出现,同时更强的模型如 Claude Opus 4.6 或 GPT-5.4-Thinking 也逐步成熟。知名AI研究员兼软件开发者安德烈·卡帕西(Andrej Karpathy)在2025年底指出,编码模型达到了一个新的能力阈值。对于许多应用场景而言,代码正变得越来越廉价、可抛弃,并且更容易修改。

这些发现使得一个假设难以成立:人工智能可能看起来令人印象深刻,但并未带来显著的性能提升。

这些研究的方法论优势也解释了它们的局限性。它们衡量的是相对清晰可观察的内容:完成任务所需时间、每小时产出量或标准化结果的质量。任务越狭窄,结论就越明确。但助手更快地关闭客户支持案例,并不意味着整个团队或公司会相应地变得更加高效。

现实世界的工作并非基准测试

工作很少由单一任务构成,而是由一系列子任务、后续问题、等待时间、审批流程和系统中断组成的链条。一个人工智能模型可以在定义明确的任务上表现优异,但在日常工作中却可能只有有限的净效应,因为真正的瓶颈可能出现在完全不同的地方。

微软与NBER开展的一项实地实验很好地说明了这一点。研究人员在六个月内随机选取了66家公司共7137名知识工作者进行研究。在研究后半段,活跃用户每周平均减少了约两小时的邮件处理时间,并且加班时间也有所下降。然而作者并未发现明显迹象表明这部分节省下来的时间被用于其他任务,或者整体工作模式发生了有意义的变化。个体层面的缓解是真实的,但更广泛的工作重组并未发生。

软件开发领域同样存在能力与流程之间的差距。METR在2025年报告称,经验丰富的开源开发者在使用人工智能处理熟悉任务时,平均速度反而慢了19%。

到了2026年2月,METR自身修订了部分结果。新的原始数据显示,由于工具改进,速度加快的趋势更加明显。但即便如此,这一更新的结果仍带有条件限制。随着AI工具变得更好,开发者也会更深入地将其融入工作流程。要开展一项真正有意义的研究,需要设置一个自愿放弃这些工具的对照组。而最受益于AI的开发者不太可能自愿加入这样一个必须放弃工具的对照组;相反,留在对照组中的人很可能就是那些本来就不怎么使用AI的人。这使得对照组缺乏代表性,削弱了研究的有效性。

最新的代理基准测试也显示,某一时刻的能力与在更长、开放式工作流程中可靠执行之间仍有巨大差距。APEX-Agents测试来自投资银行、咨询和法律领域的长时间、高工具依赖型任务,最好的系统首次尝试仅能解决24%的任务。FeatureBench评估真实代码库中端到端功能实现情况,即使是最强的模型也只能成功完成11%的任务。ResearchGym则通过客观执行指标评估完整的科研工作流程,最佳测试代理在15次运行中仅有1次优于现有基线,平均仅完成26.5%的子任务。

大多数基准测试主要展示系统在精心设计的测试场景中表现如何。代理基准测试也是如此。一旦创建,人工智能公司会迅速通过有针对性的训练来解决这些问题。这些结果在日常工作中是否有效仍然是一个悬而未决的问题,因为真实任务标准化程度较低,情境持续变化,且错误带来的后果更加严重。

知识工作没有流水线

在制造业中,生产力相对容易通过单位数量、缺陷率或周期时间来观察。但在知识工作中,情况根本不同。

分析师、产品经理或律师并不生产标准化的单位。他们做出决策、达成共识并降低风险。这正是传统生产力指标难以捕捉的贡献类型。

一份广泛引用的知识工作者生产力测量研究强调了这个问题:不存在单一的、普遍接受的衡量标准。不同类型的工作需要不同的数量、质量、相关性和影响力组合。

许多组织确实收集了大量的数据,跟踪发送的邮件、会议纪要、处理的工单和响应时间。但这些指标主要反映的是活动量和可见性。德勤指出,60%的受访高管使用此类活动指标作为生产力衡量标准。与此同时,员工平均有32%的时间花在表演性工作上——这种工作让生产力看起来更明显,但实际上并未提升它。

如果一家公司从未追踪过周期时间、错误率或整个知识工作流程的经济贡献如何变化,它就无法可靠地衡量人工智能的影响。剩下的只能是轶事,或者最多是一些定性的案例研究。

公司还应认识到,测量问题很快可能演变为激励问题。生成式AI通常首先增加可见的产出:更多的草稿、更多的邮件回复、更多的工单关闭、更多的代码建议生成。这些数字很容易统计,因此迅速出现在仪表板、试点报告和投资回报率幻灯片中。

正如扬·索尔曼在劳动经济学研究中描述的那样,这会产生一种熟悉的扭曲。一旦特定的可观察指标被纳入评估或激励机制,人们就会优化这些可见的数字。

对人工智能而言,这具有实际意义。公司往往变得擅长衡量加速产出,但这并不意味着它们变得更擅长识别其经济价值。恰恰因为人工智能在短期内产生了大量可计数的结果,混淆生产力与可见性风险也随之增加。

更多的产出不一定意味着更高的价值

即使那些设法衡量产出变化的公司,也会遇到人工智能讨论中的下一个误解。许多人将产出与结果混淆。当一个团队使用人工智能生成两倍数量的草稿、邮件或代码建议时,这确实是更多产出。但更多的产出并不等同于更大的价值——这完全取决于这些额外成果实际带来了什么。更多版本只有在能促成更好决策时才有帮助;更多关闭的工单只有在质量保持稳定的情况下才能带来利润。

圣路易斯联储的调查数据为这一差距提供了量化依据。在实际使用生成式AI的人群中,平均每人节省的时间约占工作时间的5.4%。但如果将这一数字扩展到整个劳动力群体,该比例下降至总工时的1.4%。

作者据此推算出大约1.1%的潜在生产力提升,但他们强调,目前尚不清楚这些潜在收益何时以及是否会在可测量的生产力数据中体现出来。如果没有对工作流程、目标和职责进行调整,节省下来的时间可能会在日常工作中被消耗殆尽,比如变成缓冲时间、非正式休息或额外沟通。

最严格的检验来自安德斯·胡姆卢姆(Anders Humlum)和埃米莉·维斯特加德(Emilie Vestergaard)的一项丹麦注册研究。他们将使用调查与行政劳动力市场数据相结合,发现引入聊天机器人两年后,收入和记录的工作时间均未受到影响。作者基本排除了影响超过2%的可能性。不过,他们确实观察到了任务和职业流动性的变化:人工智能确实产生了影响,但局部效率提升并不会自动转化为传统劳动力市场的成果。

阿尔达索罗及其同事开展的一项欧洲企业层面的研究则呈现出稍乐观的画面。AI采用使劳动生产率平均提高了4%,且短期内并未出现就业下降。关键问题是这种效应出现在哪里:其在中型和大型企业以及已有软件、数据和培训配套投资的公司中更为显著。这也进一步反驳了‘更多产出自动等于更高价值’的简单公式。

宾夕法尼亚大学沃顿商学院、经合组织甚至AI模型开发者Anthropic的预测均未预期会出现爆炸性效果。他们预计每年额外的生产力贡献约为百分之零点几到约1个百分点不等,具体取决于国家和情景。只有一部分工作受到影响,只有一小部分企业深度整合了AI,而节省下来的时间也只有一部分真正转化为价值创造。

激励难题:没有人报告完整情况

生产力难以衡量,且具有社会敏感性。任何承认某项原本需要五小时的任务现在只需三小时的人,实际上是在给自己打开一个更重工作量和职位重新评估的大门。难怪员工有充分理由对节省的时间保持沉默。

高管和工具供应商则面临相反的问题。他们需要证明预算合理性,并维持转型叙事,因此早期的投资回报率报告自然比后期现实核查更加乐观。

Workday报告称,员工经常描述明显的时间节省,但公司往往无法将这些释放出来的时间转化为更好的成果。双方都没有撒谎,只是视角不同:员工关注的是局部的时间效应,而公司只有在这些时间真正带来更好结果时才能记录收益。

这正是AI生产力讨论容易同时陷入夸大和低估的原因。

隐性成本削弱了总收益

许多生产力讨论中的一个核心弱点是,它们只关注毛收益而忽略了净收益。一种工具可能节省五分钟后写作时间,却引发十分钟的审核工作,这在提示窗口中看起来很亮眼,但实际上对整体流程几乎没有改善。由于生成式AI是概率性的,其额外的工作量往往在响应之后才显现出来,比如验证、后期编辑和质量保证阶段。

波士顿咨询公司(BCG)关于“AI大脑过载”的研究报告描述了一种认知疲劳现象——即持续监督和评估多个AI系统所引发的心理疲惫。根据对1488名美国员工的调查,约14%的AI使用者报告出现了此类症状。AI部分替代了现有工作流程,同时也创造了新的任务,即检查和决策环节。

BetterUp与斯坦福大学社交媒体实验室描述了另一种现象,他们称之为“Workslop”——即看似形式合理但实质内容贫乏的AI生成内容,需要后续处理。他们的调查显示,40%的员工在过去一个月内收到过此类输出,应对每起事件平均耗时近两个小时。表面上的个人效率提升,会在组织层面重新表现为转移后的返工。

AI聊天机器人引入的新任务在不同职业间分布差异显著:IT支持和软件开发主要集中在集成与起草上;教师则更多涉及伦理与合规问题;财务顾问则聚焦于数据洞察力。这些比例反映了有新AI任务的受访者群体中的平均分配情况。使用AI进行实际内容创作的比例仍然很小。

更长期的成本在于学习与技能发展。Anthropic对52名软件开发者的研究表明,在学习新库的过程中大量使用AI会使开发者略微变快,但在知识测试中成绩反而下降了17%。一家公司今天可以加快工作进度,但同时削弱未来几年的培训基础。AI的使用方式决定了结果:那些用AI获取解释的开发者比那些将其作为任务外包工具的开发者学得更好。

此外,还存在元认知层面的问题。《人类行为中的计算机》研究显示,ChatGPT能提高推理任务的表现,但同时扭曲自我评估。用户表现更好了,却系统性地高估了自己的能力。一种既加速产出又抬高主观自信的工具,恰恰会在人们自认为掌握良好但实际理解有限的地方增加出错风险。

最后,还有运营、集成和治理成本。在组织内安全地嵌入模型,并以可审计、法律上站得住脚且技术兼容的方式实现,需要大量努力。然而这些成本很少出现在公开的生产力讨论中。任何只衡量初稿速度而忽略审查、审批、监控和培训全部成本的人,衡量的是总生产力,而非净生产力。

应该测量什么

标准的AI问题是任务完成速度提高了多少。更好的问题是流程发生了哪些变化,以及哪些变化创造了价值。

一个更有用的测量框架至少需要区分五个层次。

第一,整个流程的周期时间,而不仅仅是单个任务的完成时间。

第二,错误率和返工率,而不仅仅是产出数量。

第三,质量水平,即结果是否至少与之前一样好。

第四,客户价值,比如响应更快、满意度更高或升级减少。

第五,经济影响,包括收入、利润率、转化率,或者更高效地利用高技能劳动力。

同样重要的是,被释放出来的产能去了哪里。圣路易斯联储和微软/NBER实地实验的研究表明,时间节省是真实的。但只有当这些时间被重新投入到创造价值的工作中时,它才具有经济意义。如果没有这一步,节省下来的时间只是生产力指标的一半。

超越基准的价值创造

2025年美国的生产力数据看起来更加稳健,经合组织(OECD)数据显示AI采用率持续增长,企业层面的数据也指向真正的生产力提升。但这些年也同样伴随着测量噪声、数据修订,以及个人使用增长远快于深度组织整合的事实。耶鲁大学预算实验室指出,目前的数据还不能被视为AI繁荣的证据。

AI节省时间的说法在每个层面都是不完整的。时间节省是第一个、最容易衡量的阶段。价值只有在第二个阶段才会显现——当流程缩短、决策改善、错误减少或边际成本下降时。真正的问题是,在何种组织条件下局部加速才能转化为经济影响。

三种情景:基线、加速、放缓

生成式AI确实能在单个任务上带来可衡量的时间节省,众多研究证实了这一点。但在这种微观效率与真正的经济生产力之间存在系统性差距。验证负担、知识工作缺乏度量指标、隐藏成本和组织惯性,使得基准收益无法体现在公司资产负债表和经济数据中。辩论往往将从更快完成单个任务到价值创造的路径视为理所当然,但实际上,这才是最困难的部分。

如果当前趋势持续,未来两到三年内AI工具将继续渗透到工作流程中。但企业将仅对流程、衡量体系或激励结构做出有限调整。个人的时间节省仍将真实存在,却会逐渐被缓冲时间、额外的沟通以及以可见性为导向的琐碎工作所消耗。

整体经济层面的生产率提升将维持在每年几个百分点的范围内,与宾夕法尼亚大学沃顿商学院、经合组织(OECD)和Anthropic的预测一致。热切的试点报告与更为保守的经济数据之间的差距将持续存在,从而维持着炒作与失望两种叙事。

加速情景:通过流程重塑与更好度量实现突破

如果更可靠的模型显著进步,并与企业内部系统性的流程重塑相结合,同时开发出衡量知识型工作的价值创造指标,那么加速情景就可能实现。一个可能的触发因素是自主编码代理的重大突破,能够独立完成整个开发周期。目前复杂任务的成功率仅为11%至24%,需要大幅提升。

另一个触发因素可能是行业范围内的AI辅助工作流程度量标准。届时,公司层面的生产率提升将变得切实可感,在高度数字化的行业中,年均增幅可达3%至5%。但代价是会对员工造成更大压力,因为他们的工作任务可能比再培训体系的适应速度更快地发生变化。

放缓情景:净收益陷阱

这些制约因素已经显现:全天候监督AI系统带来的心理疲劳加剧;产出越来越多看似良好实则空洞的内容;经验不足的员工技能逐步退化;合规与风险管理成本持续上升。

如果这些趋势与模型性能停滞或重大AI失败同时发生,广泛失望情绪可能会出现。企业将削减AI预算或将使用限制在狭小的应用场景中。任何宏观经济层面的生产率影响都将长期淹没在统计噪声之中。

我们的评估

我们认为基线情景最有可能发生。研究显示了一个稳定模式:技术在任务层面有效,但组织变革缓慢。我们在支持德国、奥地利和瑞士(DACH地区)企业采纳AI的过程中也观察到了同样的现象。

回顾PC、互联网和云计算的历史可以发现,从技术可用到可测量的生产率影响之间通常要经过大约十年。

我们认为关键瓶颈在于组织的吸收能力:重新设计工作流程、建立度量体系、调整激励机制并构建问责框架。只要企业继续追踪活动指标而非价值创造指标,且员工有充分理由保留效率提升成果,生产力差距就始终是一个结构性问题——无论下一代模型多么强大。

作为 THE DECODER 的订阅者,您将获得无广告阅读体验、每周的人工智能简报、每年六次的独家「AI雷达」前沿报告、评论区访问权限以及我们的完整档案库。

来源与参考

  1. 原始链接
  2. Frontier Radar #2: Why AI productivity gets lost between benchmarks and the balance sheet