OpenAI研究者称数学是通往AGI的关键路径

The Decoder·4月29日 23:24 UTC·作者 Maximilian Schreiner

关键信息

研究人员强调，数学要求长时间内无错误的逻辑链——这正是AGI必须具备的能力。像Minerva（谷歌）和OpenAI内部系统这样的模型，在短短两年内已从基础算术跃升到研究级证明。

资讯摘要

OpenAI的研究员塞巴斯蒂安·布贝克和埃斯特·柳解释了为什么数学推理已成为人工通用智能（AGI）的主要测试标准。两年前，模型还难以应对基础数学；如今它们已经能够解决曾经被认为不可能的问题，比如柳用ChatGPT在12小时内解决的一个42年未解的优化理论难题。这些模型现在可以模拟学生级别的思考长达数天，而非几分钟，标志着指数级的进步。

布贝克认为，数学迫使系统进行深度推理并自我修正——这是AGI所必需的技能。他设想了一个‘自动化研究员’，能在长期内独立处理科学问题。尽管最初关于解决埃尔德什问题的声明引发争议，但新结果表明确实出现了真正的新证明，说明AI正从重组走向原创性发现。

资讯正文

OpenAI研究人员解释为何数学是通往AGI的道路

人工智能模型仅用两年时间就从小学算术跃升至奥林匹克级别和研究级数学。在OpenAI播客中，OpenAI研究人员塞巴斯蒂安·布贝克（Sebastian Bubeck）和埃斯特·柳（Ernest Ryu）解释了为何数学已成为通向通用人工智能（AGI）道路上的关键测试标准。

两年前，推理模型还不存在。四年前，当谷歌的Minerva模型能在坐标系上画出一条通过点的直线时，布贝克感到非常惊讶。如今，他告诉安德鲁·梅因（Andrew Mayne），这些系统已经能帮助菲尔兹奖得主完成日常研究工作。布贝克提到，在18个月前的一次会议上，房间里的80%数学家都认为，扩大规模的语言模型不可能解决研究型问题。

曾任加州大学洛杉矶分校数学教授的埃斯特·柳表示，他仅用了三个晚上的十二小时，就利用ChatGPT解决了优化理论中一个42年未解的问题——而此前他投入超过40小时却毫无进展。柳充当了验证者角色，发现错误并引导对话朝有希望的方向推进。

为何数学成为AGI的基准

对布贝克而言，数学并非偶然成为AGI进展的衡量标准，它恰恰要求一种通用智能系统必须具备的能力。数学证明需要数小时、数天甚至数年的持续逻辑推理，且链路中任何一处错误都会使整个论证失效，无论其余部分多么正确。任何能应对这种挑战的系统，都必须能够识别并修正自身错误。

这正是研究人员希望从数学训练中迁移到其他领域（如生物学、材料科学等）的核心能力。布贝克类比人类教育：学生学习数学并非为了日后写证明，而是因为这个学科迫使他们进行逻辑思考。

数学作为基准还有实际优势：问题表述清晰，答案可验证，没人会争论结果是否正确。布贝克提出了“AGI时间”的概念：两年前，模型只能模拟学生思维几分钟；如今已提升到几天甚至一周。下一个目标是实现数周乃至数月的连续推理能力。

布贝克表示，OpenAI的训练方法并不专属于数学，而是通用的，这意味着其他科学领域的进步也将随之而来。研究人员正在构建一个‘自动化研究员’，使其能够在长时间内独立处理问题。

埃尔德什问题与关于其意义的争论

布贝克和柳还探讨了埃尔德什问题（Erdős problems），这是已故匈牙利数学家保罗·埃尔德什（Paul Erdős）留下的开放性问题集合。布贝克称，内部模型最初找到了十道标记为开放的问题的解决方案，主要通过深度文献检索实现。他当时发布的一条误导性推文引发了与谷歌CEO德米斯·哈萨比斯（Demis Hassabis）的公开争执，因为许多人误以为OpenAI已经产出新的证明。如今布贝克表示，ChatGPT和内部模型实际上已经产生了超过十个真正新颖的解决方案，值得发表在学术期刊上。

什么看似不切实际的主张，如今已变为现实，而且进展速度正在加快。布贝克认为，这表明模型正从重组已有知识迈向生成新数学。即使关于科学进步是否仅仅是巧妙重组加上一点推理的哲学问题仍悬而未决。

风险：思维退化与虚假证明

两位研究人员都警告不要肤浅地使用这些工具。他们认为，专业知识比以往任何时候都更重要，因为只有受过训练的数学家才能将模型用于有效用途。那些在社交媒体上发布冗长AI生成证明的非数学专业人士，通常都是错误的。柳看到编程领域也存在类似情况，整整一代人正在失去使用调试器的能力。

布贝克表示，声称科学家不再需要的说法因此非常危险。学术机构需要积极重拾自身角色。同时，人工智能可以加速证明验证过程——目前这一过程可能耗时数年——并标记已发表论文中的问题。

AI新闻，无夸大成分——由人类精选

来源与参考

收录于 2026-04-30