2026年AI指数报告揭示快速进展与系统性挑战

MIT Technology Review AI··作者 Michelle Kim

关键信息

顶级AI模型如今在博士级测试中已能媲美人类专家,SWE-bench Verified等基准测试显示性能从2024年的约60%跃升至2025年的近100%。然而,领先公司停止分享训练细节,透明度正在下降。

资讯摘要

2026年AI指数报告通过硬数据澄清了围绕AI的混乱信息:模型进步速度前所未有,采用速度超越以往所有技术革命,收入增长也超过了早期科技热潮。然而,这种进步代价高昂——数据中心耗电量相当于纽约州峰值需求,GPT-4o等模型的用水量堪比数百万人饮用水需求。

中美在模型性能上几乎持平,但优势不同:美国在数据中心和资本方面领先,中国则在研究论文和机器人领域占优。尽管进步迅速,AI在家庭杂务或自动驾驶等现实任务中仍表现不佳,且缺乏透明度使得安全研究困难重重。

2026年AI指数报告揭示快速进展与系统性挑战

资讯正文

如果你想了解人工智能的当前状态,不妨看看这些图表。

如果你关注AI新闻,可能会感到头晕目眩。AI既是淘金热,也是泡沫;它可能抢走你的工作,却连看懂钟表都做不到。斯坦福大学以人为本的人工智能研究所(HAI)发布的2026年AI指数报告今天正式发布,这份年度成绩单有助于厘清部分混乱信息。

尽管有人预测AI发展可能遇到瓶颈,但报告指出,顶级模型仍在持续进步。人们采用AI的速度甚至超过了当初普及个人电脑或互联网的速度。AI公司创造收入的速度也快于以往任何技术浪潮中的企业,但它们也在数据中心和芯片上投入了数千亿美元。衡量AI性能的基准、规范AI的政策以及就业市场都在努力跟上步伐。AI正在飞奔,而我们其他人还在找自己的鞋。

这种速度是有代价的。全球AI数据中心现在可消耗高达29.6吉瓦的电力,足以支撑纽约州在用电高峰时的全部需求。仅运行OpenAI的GPT-4o模型一年所用的水量,就可能超过1200万人的饮用水需求。与此同时,芯片供应链异常脆弱。美国拥有世界上大多数AI数据中心,而台湾的一家公司——台积电(TSMC),几乎制造了所有领先的AI芯片。

数据揭示了一个演进速度远超我们管理能力的技术。以下是今年报告中的一些关键点。

美国与中国几乎势均力敌

根据一个名为Arena的社区驱动排名平台的数据,该平台允许用户对大型语言模型在相同提示下的输出进行比较,在这场具有重大地缘政治意义的长期激烈竞争中,美国和中国在AI模型表现上几乎难分伯仲。早在2023年初,OpenAI凭借ChatGPT占据领先优势,但在2024年随着谷歌和Anthropic推出自家模型,这一差距逐渐缩小。到2025年2月,由中国DeepSeek实验室开发的R1模型曾短暂追平当时排名第一的美国模型ChatGPT。截至2026年3月,Anthropic位居榜首,紧随其后的是xAI、谷歌和OpenAI。中国的DeepSeek和阿里巴巴等模型仅稍逊一筹。由于顶尖AI模型之间的排名差距极小,如今的竞争焦点已转向成本、可靠性和实际应用价值。

该指数指出,中美两国各有优势。美国拥有更强大的AI模型、更多的资本,并拥有约5427个数据中心(是其他国家数量的十倍以上);而中国则在AI研究论文发表量、专利数量和机器人领域占据领先地位。

随着竞争加剧,OpenAI、Anthropic和谷歌等公司不再公开披露训练代码、参数数量或数据集规模。“我们对模型行为的预测了解甚少,”共同撰写该报告的南加州大学计算机科学家尤兰达·吉尔(Yolanda Gil)表示。她指出,这种透明度缺失使得独立研究人员难以研究如何让AI模型更加安全。

尽管有预测称发展将趋于平稳,人工智能模型仍在持续进步。根据某些衡量标准,它们现在在测试中已达到甚至超过人类专家的水平,这些测试旨在评估博士级别的科学、数学和语言理解能力。软件工程基准测试 SWE-bench Verified 在2024年时顶级得分约为60%,到2025年几乎达到了100%。2025年,一个AI系统甚至能独立生成天气预报。

“我惊讶于这项技术仍在持续提升,而且丝毫没有停滞的迹象,”吉尔表示。

然而,人工智能在其他许多领域仍面临挑战。由于模型是通过处理海量文本和图像来学习,而非亲身体验物理世界,因此AI表现出‘不均衡的智能’。机器人仍处于早期阶段,仅能在12%的家庭任务中成功完成。自动驾驶汽车则更进一步:Waymo车辆已在五个美国城市行驶,百度Apollo Go车辆则在中国接送乘客。AI也在向法律和金融等专业领域扩展,但目前还没有哪个模型占据主导地位。

但衡量AI的方式存在问题

这些进展报告应谨慎看待。斯坦福报告指出,随着模型迅速突破原有上限,用于追踪AI进展的基准测试正难以跟上步伐。一些基准设计不佳——例如一项常用来测试模型数学能力的基准,错误率高达42%。另一些则容易被‘破解’:如果模型在训练过程中接触到基准测试数据,它们可能学会高分,却并未真正变得更聪明。

AI公司也减少了对模型训练细节的披露,独立测试有时会揭示与他们公布结果不同的情况。“很多公司不会公开其模型在某些基准上的表现,尤其是负责任AI相关的基准,”吉尔说,“你的模型在某个基准上的表现缺失,也许恰恰说明了什么。”

AI开始影响就业

在主流普及三年内,全球已有超过一半的人口使用AI,这一采纳速度超过了个人电脑或互联网。据估计,88%的组织正在使用AI,五分之四的大学生也在使用。

部署尚处初期,AI对就业的影响很难量化。不过,一些研究显示AI已经开始影响特定职业的年轻人。斯坦福大学经济学家2025年的一项研究表明,年龄在22至25岁的软件开发人员就业人数自2022年以来下降了近20%。这种下滑未必完全归因于AI,宏观经济条件也可能有关,但AI显然起到了一定作用。

雇主表示,招聘可能会继续收紧。根据麦肯锡公司2025年进行的一项调查,三分之一的组织预计人工智能将在未来一年缩减其员工规模,尤其是在服务、供应链运营和软件工程领域。指数引用的研究显示,人工智能在客户服务中的生产率提升了14%,在软件开发中提升了26%,但在需要更多判断力的任务中并未看到此类收益。总体而言,目前仍为时过早,难以全面理解人工智能更大的经济影响。

人们对人工智能抱有复杂情绪

全球范围内,人们对人工智能既感到乐观又感到焦虑:根据指数引用的Ipsos调查,59%的人认为人工智能带来的好处多于弊端,而52%的人表示它让他们感到紧张。

值得注意的是,根据指数引用的皮尤调查显示,专家与公众对人工智能的未来看法截然不同。最大的分歧出现在工作未来上:73%的专家认为人工智能会对人们的工作方式产生积极影响,而只有23%的美国公众持此观点。专家在教育和医疗保健方面也比公众更乐观,但他们一致认为人工智能将损害选举和个人关系。

另一项Ipsos调查显示,在所有受访国家中,美国人最不信任政府能够恰当地监管人工智能。更多的美国人担心联邦层面的人工智能监管力度不够,而不是担心监管过度。

各国政府正努力监管人工智能

世界各国政府都在努力监管人工智能,但去年取得了一些微小的成功。欧盟《人工智能法案》首次禁止使用人工智能进行预测性警务和情绪识别,这些禁令已生效。日本、韩国和意大利也通过了本国的人工智能法律。与此同时,美国联邦政府则朝着放松监管的方向迈进,特朗普总统发布行政命令,试图限制各州对人工智能进行监管。

尽管如此,美国各州立法机构仍通过了创纪录的150项与人工智能相关的法案。加州通过了具有里程碑意义的立法,包括SB 53号法案,要求人工智能模型开发者披露安全信息并保护举报人。纽约通过了RAISE法案,要求人工智能公司公布安全协议并报告重大安全事件。

但吉尔表示,尽管立法活动频繁,监管仍落后于技术发展,因为我们并不真正了解其运作机制。“政府对监管人工智能持谨慎态度,因为……我们对许多事情的理解还不够深入,”她说,“我们对这些系统缺乏充分掌控。”

深度剖析

OpenAI正全力以赴打造全自动研究员

独家专访OpenAI首席科学家雅库布·帕霍茨基,探讨该公司新的宏大挑战及人工智能的未来。

《精灵宝可梦GO》正在为配送机器人提供精确到厘米的世界视角

独家报道:Niantic的人工智能子公司正利用玩家提供的300亿张城市地标图像训练全新的世界模型。

想要了解当前人工智能的状况吗?看看这些图表。

发现特别优惠、热门新闻、即将举行的活动等更多信息。

来源与参考

  1. 原始链接
  2. Want to understand the current state of AI? Check out these charts.

收录于 2026-04-14