2026年AI指数报告揭示快速进展与系统性挑战

MIT Technology Review AI·4月13日 21:00 UTC·作者 Michelle Kim

关键信息

顶级AI模型如今在博士级测试中已能媲美人类专家，SWE-bench Verified等基准测试显示性能从2024年的约60%跃升至2025年的近100%。然而，领先公司停止分享训练细节，透明度正在下降。

资讯摘要

2026年AI指数报告通过硬数据澄清了围绕AI的混乱信息：模型进步速度前所未有，采用速度超越以往所有技术革命，收入增长也超过了早期科技热潮。然而，这种进步代价高昂——数据中心耗电量相当于纽约州峰值需求，GPT-4o等模型的用水量堪比数百万人饮用水需求。

中美在模型性能上几乎持平，但优势不同：美国在数据中心和资本方面领先，中国则在研究论文和机器人领域占优。尽管进步迅速，AI在家庭杂务或自动驾驶等现实任务中仍表现不佳，且缺乏透明度使得安全研究困难重重。

资讯正文

如果你想了解人工智能的当前状态，不妨看看这些图表。

如果你关注AI新闻，可能会感到头晕目眩。AI既是淘金热，也是泡沫；它可能抢走你的工作，却连看懂钟表都做不到。斯坦福大学以人为本的人工智能研究所（HAI）发布的2026年AI指数报告今天正式发布，这份年度成绩单有助于厘清部分混乱信息。

尽管有人预测AI发展可能遇到瓶颈，但报告指出，顶级模型仍在持续进步。人们采用AI的速度甚至超过了当初普及个人电脑或互联网的速度。AI公司创造收入的速度也快于以往任何技术浪潮中的企业，但它们也在数据中心和芯片上投入了数千亿美元。衡量AI性能的基准、规范AI的政策以及就业市场都在努力跟上步伐。AI正在飞奔，而我们其他人还在找自己的鞋。

这种速度是有代价的。全球AI数据中心现在可消耗高达29.6吉瓦的电力，足以支撑纽约州在用电高峰时的全部需求。仅运行OpenAI的GPT-4o模型一年所用的水量，就可能超过1200万人的饮用水需求。与此同时，芯片供应链异常脆弱。美国拥有世界上大多数AI数据中心，而台湾的一家公司——台积电（TSMC），几乎制造了所有领先的AI芯片。

数据揭示了一个演进速度远超我们管理能力的技术。以下是今年报告中的一些关键点。

美国与中国几乎势均力敌

根据一个名为Arena的社区驱动排名平台的数据，该平台允许用户对大型语言模型在相同提示下的输出进行比较，在这场具有重大地缘政治意义的长期激烈竞争中，美国和中国在AI模型表现上几乎难分伯仲。早在2023年初，OpenAI凭借ChatGPT占据领先优势，但在2024年随着谷歌和Anthropic推出自家模型，这一差距逐渐缩小。到2025年2月，由中国DeepSeek实验室开发的R1模型曾短暂追平当时排名第一的美国模型ChatGPT。截至2026年3月，Anthropic位居榜首，紧随其后的是xAI、谷歌和OpenAI。中国的DeepSeek和阿里巴巴等模型仅稍逊一筹。由于顶尖AI模型之间的排名差距极小，如今的竞争焦点已转向成本、可靠性和实际应用价值。

该指数指出，中美两国各有优势。美国拥有更强大的AI模型、更多的资本，并拥有约5427个数据中心（是其他国家数量的十倍以上）；而中国则在AI研究论文发表量、专利数量和机器人领域占据领先地位。

随着竞争加剧，OpenAI、Anthropic和谷歌等公司不再公开披露训练代码、参数数量或数据集规模。“我们对模型行为的预测了解甚少，”共同撰写该报告的南加州大学计算机科学家尤兰达·吉尔（Yolanda Gil）表示。她指出，这种透明度缺失使得独立研究人员难以研究如何让AI模型更加安全。

尽管有预测称发展将趋于平稳，人工智能模型仍在持续进步。根据某些衡量标准，它们现在在测试中已达到甚至超过人类专家的水平，这些测试旨在评估博士级别的科学、数学和语言理解能力。软件工程基准测试 SWE-bench Verified 在2024年时顶级得分约为60%，到2025年几乎达到了100%。2025年，一个AI系统甚至能独立生成天气预报。

“我惊讶于这项技术仍在持续提升，而且丝毫没有停滞的迹象，”吉尔表示。

然而，人工智能在其他许多领域仍面临挑战。由于模型是通过处理海量文本和图像来学习，而非亲身体验物理世界，因此AI表现出‘不均衡的智能’。机器人仍处于早期阶段，仅能在12%的家庭任务中成功完成。自动驾驶汽车则更进一步：Waymo车辆已在五个美国城市行驶，百度Apollo Go车辆则在中国接送乘客。AI也在向法律和金融等专业领域扩展，但目前还没有哪个模型占据主导地位。

但衡量AI的方式存在问题

这些进展报告应谨慎看待。斯坦福报告指出，随着模型迅速突破原有上限，用于追踪AI进展的基准测试正难以跟上步伐。一些基准设计不佳——例如一项常用来测试模型数学能力的基准，错误率高达42%。另一些则容易被‘破解’：如果模型在训练过程中接触到基准测试数据，它们可能学会高分，却并未真正变得更聪明。

AI公司也减少了对模型训练细节的披露，独立测试有时会揭示与他们公布结果不同的情况。“很多公司不会公开其模型在某些基准上的表现，尤其是负责任AI相关的基准，”吉尔说，“你的模型在某个基准上的表现缺失，也许恰恰说明了什么。”

AI开始影响就业

在主流普及三年内，全球已有超过一半的人口使用AI，这一采纳速度超过了个人电脑或互联网。据估计，88%的组织正在使用AI，五分之四的大学生也在使用。

部署尚处初期，AI对就业的影响很难量化。不过，一些研究显示AI已经开始影响特定职业的年轻人。斯坦福大学经济学家2025年的一项研究表明，年龄在22至25岁的软件开发人员就业人数自2022年以来下降了近20%。这种下滑未必完全归因于AI，宏观经济条件也可能有关，但AI显然起到了一定作用。

雇主表示，招聘可能会继续收紧。根据麦肯锡公司2025年进行的一项调查，三分之一的组织预计人工智能将在未来一年缩减其员工规模，尤其是在服务、供应链运营和软件工程领域。指数引用的研究显示，人工智能在客户服务中的生产率提升了14%，在软件开发中提升了26%，但在需要更多判断力的任务中并未看到此类收益。总体而言，目前仍为时过早，难以全面理解人工智能更大的经济影响。

人们对人工智能抱有复杂情绪

全球范围内，人们对人工智能既感到乐观又感到焦虑：根据指数引用的Ipsos调查，59%的人认为人工智能带来的好处多于弊端，而52%的人表示它让他们感到紧张。

值得注意的是，根据指数引用的皮尤调查显示，专家与公众对人工智能的未来看法截然不同。最大的分歧出现在工作未来上：73%的专家认为人工智能会对人们的工作方式产生积极影响，而只有23%的美国公众持此观点。专家在教育和医疗保健方面也比公众更乐观，但他们一致认为人工智能将损害选举和个人关系。

另一项Ipsos调查显示，在所有受访国家中，美国人最不信任政府能够恰当地监管人工智能。更多的美国人担心联邦层面的人工智能监管力度不够，而不是担心监管过度。

各国政府正努力监管人工智能

世界各国政府都在努力监管人工智能，但去年取得了一些微小的成功。欧盟《人工智能法案》首次禁止使用人工智能进行预测性警务和情绪识别，这些禁令已生效。日本、韩国和意大利也通过了本国的人工智能法律。与此同时，美国联邦政府则朝着放松监管的方向迈进，特朗普总统发布行政命令，试图限制各州对人工智能进行监管。

尽管如此，美国各州立法机构仍通过了创纪录的150项与人工智能相关的法案。加州通过了具有里程碑意义的立法，包括SB 53号法案，要求人工智能模型开发者披露安全信息并保护举报人。纽约通过了RAISE法案，要求人工智能公司公布安全协议并报告重大安全事件。

但吉尔表示，尽管立法活动频繁，监管仍落后于技术发展，因为我们并不真正了解其运作机制。“政府对监管人工智能持谨慎态度，因为……我们对许多事情的理解还不够深入，”她说，“我们对这些系统缺乏充分掌控。”

深度剖析

OpenAI正全力以赴打造全自动研究员

独家专访OpenAI首席科学家雅库布·帕霍茨基，探讨该公司新的宏大挑战及人工智能的未来。

《精灵宝可梦GO》正在为配送机器人提供精确到厘米的世界视角

独家报道：Niantic的人工智能子公司正利用玩家提供的300亿张城市地标图像训练全新的世界模型。

想要了解当前人工智能的状况吗？看看这些图表。

发现特别优惠、热门新闻、即将举行的活动等更多信息。

来源与参考

收录于 2026-04-14