斯坦福AI指数2026：快速进步伴随安全担忧与信任下降

The Decoder·4月14日 17:16 UTC·作者 Maximilian Schreiner

关键信息

顶级模型一年内可解决99%的编码基准测试，但仅能正确读取机械表50.1%的时间——显示性能不稳定。尽管2025年美国私人AI投资达2859亿美元，自2017年以来赴美AI研究人员数量减少了89%。

资讯摘要

斯坦福AI指数2026记录了人工智能能力的重大进展，包括在博士级科学问题和数学奥林匹克竞赛中超越人类表现。然而，AI在读取机械表等简单现实任务上仍表现不佳。中美AI差距急剧缩小，自2025年初两国轮流占据榜首位置。生成式AI仅三年就覆盖了53%的人口，比PC或互联网传播更快，但公众信任度持续走低——只有23%的美国人认为其对劳动力市场影响积极。

客户支持和软件开发等领域生产力显著提升，但初级岗位正在减少，尤其是年轻开发者群体。教育机构滞后于AI应用，多数学校缺乏明确的AI政策。专家（73%认为AI对就业有正面影响）与公众之间存在巨大认知鸿沟（仅23%持相同观点）。在美国，公众对政府AI监管的信任度在全球垫底。

资讯正文

斯坦福AI指数2026显示快速进展、日益增长的安全担忧以及公众信任的下降

关键要点

- 根据斯坦福AI指数2026报告，人工智能模型在博士级科学问题上的表现已超过人类基准，但仍无法完成读取模拟时钟等简单任务。

- 美国与中国之间的性能差距几乎已经缩小。美国在投资方面领先（2859亿美元），但自2017年以来流入美国的AI研究人员数量减少了约89%。

- 生成式AI仅用三年时间就覆盖了53%的人口，比个人电脑或互联网传播得更快，但只有23%的美国公众认为其对劳动力市场的影响是积极的。

斯坦福HAI发布的《AI指数报告2026》记录了人工智能模型的重大进步、美中两国差距的缩小以及日益严峻的安全问题，与此同时公众信任度持续下滑。

该报告是斯坦福人类中心人工智能研究所对人工智能发展的年度评估，涵盖研究、产业和社会影响等多个维度。

今年的版本展示了这项技术的进步程度：人工智能模型现在在博士级别的科学问题和竞赛难度的数学题上已超越人类基准。根据报告，在SWE-bench Verified编码基准测试中，性能从一年前的60%跃升至接近100%。

谷歌的Gemini Deep Think在国际数学奥林匹克竞赛中获得金牌。但尽管取得这些进展，“锯齿状前沿”现象依然存在：同一顶级模型仅能正确读取模拟时钟的50.1%的时间。

根据报告，美国与中国之间的性能差距实际上已经缩小。自2025年初以来，两国模型轮流占据榜首位置。截至2026年3月，Anthropic的领先模型仅拥有2.7%的优势。中国在论文发表量、引用次数和工业机器人领域占优，而美国则在顶尖模型数量和投资方面领先：2025年私人AI投资达到2859亿美元，是中国的23倍。然而，自2017年以来移居美国的AI研究人员人数减少了89%。

生产力提升伴随初级岗位减少

报告指出，在客户服务和软件开发领域，生产力提高了14%至26%，营销团队甚至高达72%。但在需要更多判断力的任务中，效果较弱甚至为负。企业在各个部门采用AI代理的比例仍处于个位数。

这一故事也有另一面：在软件开发领域，生产力提升最显著，但美国22至25岁开发者就业人数自2024年以来下降近20%。与此同时，年长开发者的数量仍在持续增长。

超过一半人口使用，但教育跟不上步伐

报告称，生成式AI在三年内覆盖了53%的人口，传播速度超过了个人电脑或互联网。

斯坦福大学AI指数2026报告指出，人工智能发展迅速，安全担忧日益加剧，公众信任度持续下降。

在年轻人群体中，使用率更高：五分之四的美国学生将人工智能用于学业。然而，只有一半的中学和高中制定了人工智能相关政策，仅有6%的教师表示这些政策表述清晰。

专家与公众生活在不同的AI世界里

该报告最引人注目的发现可能是认知差距：73%的美国专家认为人工智能对就业市场的影响是积极的，但只有23%的普通民众持相同看法。类似的分歧也出现在经济和医疗保健领域。

全球范围内，人们对政府监管人工智能的信任度差异显著。根据斯坦福报告，在所调查的国家中，美国公众对其政府监管人工智能的能力信任度最低，仅为31%；相比之下，欧盟在全球范围内比美国和中国更受信赖，被认为在有效监管人工智能方面更具优势。

来源与参考

收录于 2026-04-15