高尔斯称 ChatGPT 5.5 Pro 完成博士级数学研究

The Decoder·5月9日 22:32 UTC·作者 Matthias Bastian

关键信息

高尔斯称，ChatGPT 5.5 Pro 在 17 分钟 5 秒内处理了梅尔·纳萨森论文中的一个开放问题，随后又用 2 分钟 23 秒把证明改写成 LaTeX 预印本。对于更难的推广问题，模型经过多轮迭代，在 31 分钟 40 秒内生成了最终预印本；年轻研究者艾萨克·拉贾戈帕尔表示，核心想法是原创的，而且更强的界“几乎可以确定是正确的”。

资讯摘要

英国数学家蒂莫西·高尔斯在博客中写道，OpenAI 的 ChatGPT 5.5 Pro 产出了他所称的博士级数学研究，而他本人几乎没有做出任何数学贡献。高尔斯还表示，他甚至没有使用什么高明的提示词，而且整个过程不到两小时就完成了。高尔斯把模型拿来处理数论学家梅尔·纳萨森论文中的开放问题，这篇论文研究的是某些整数和集合可能有多大，以及如何高效构造满足特定性质的集合。第一个问题中，纳萨森已经证明了一个指数级上界，并提出是否还能改进。高尔斯称，ChatGPT 5.5 Pro 在 17 分钟 5 秒后找到了最佳构造，它用组合学中已知但在这里不明显的更高效变体替换了纳萨森证明中的一个环节。随后，模型在 2 分钟 23 秒内把论证改写成 LaTeX 预印本，高尔斯检查后又让它继续解决一个相关变体，模型也顺利完成。

第二个更一般的问题此前已有麻省理工学院学生艾萨克·拉贾戈帕尔的研究，他证明了一个指数型依赖。高尔斯阅读了他的论文后，让模型尝试改进；模型先在 16 分钟 41 秒后给出一个小幅改进，拉贾戈帕尔认为这一步正确，但只是对自己工作的常规修改。之后高尔斯又要求模型更激进一些，模型经过多轮推理后给出了更强结果：它找到一种方法，把某些代数结构压缩到更小的数值范围里，同时不丢失证明所需的组合性质。最终，这个结果把上界从指数级改进到了多项式级，整个过程用了 31 分钟 40 秒。拉贾戈帕尔据称表示该结果“几乎肯定正确”，并称其核心想法巧妙得令人印象深刻，像是人类数学家花上几周思考后也会感到自豪的点子。需要注意的是，这些说法主要来自高尔斯的描述和二手报道，因此虽然非常引人注目，但仍需要独立验证。

资讯正文

Fields Medalist says ChatGPT 5.5 Pro delivered “PhD-level” math research in under two hours with zero human help

要点

- 英国数学家 Timothy Gowers 使用 OpenAI 的 ChatGPT 5.5 Pro 模型来攻克数论中的开放问题，AI 在不到两小时内生成了完整的科学论文，而 Gowers 本人没有提供任何数学上的指导。

- 据 Gowers 说，AI 的输出达到了“博士水平”，并成功改进了现有的数学界限，展示出相当惊人的独立数学推理能力。

- 参与这项工作的年轻研究者 Isaac Rajagopal 称该模型的核心想法“完全原创”，他说，若是人类数学家，经过数周思考后能取得这样的成果也会感到自豪。

英国数学家 Timothy Gowers 让 ChatGPT 5.5 Pro 处理数论中的开放问题。该模型显著改进了一个现有的数学界限。参与其中的一位年轻研究者称，该模型的核心想法“完全原创”。

Fields Medalist Timothy Gowers 在他的博客中写道，ChatGPT 5.5 Pro 产出了一篇博士水平的数学研究，而他自己的数学贡献为零。整个工作由模型在不到两小时内完成。“我甚至没有在提示词上做什么聪明的处理，”Gowers 写道。

这位数学家是法国高等科学研究所（Collège de France）组合数学讲席教授，也是剑桥三一学院院士，他把 Mel Nathanson 的一篇论文中的开放问题输入给模型。那篇论文研究的是某些整数和集合可能的规模，以及如何以给定性质高效构造这样的集合。

ChatGPT 5.5 Pro 在 17 分钟内破解了一个开放数学问题

Nathanson 曾证明了其中一个问题的指数型界限，并询问是否可以改进。根据 Gowers 的说法，ChatGPT 5.5 Pro 思考了 17 分 5 秒，然后给出了一个二次型界限下的最佳构造。其核心思路是：模型把 Nathanson 证明中的一个组成部分替换成了一个更高效的变体，这在组合数学中众所周知，但要把它应用到这个特定问题上并不明显。

当被要求时，ChatGPT 在 2 分 23 秒内把这一论证改写成了一篇 LaTeX 预印本。Gowers 检查了其正确性，然后让模型解决一个相关变体，结果它顺利完成，没有出现任何问题。这两个结果都已作为预印本发布。

一个更一般化的问题要困难得多。这里已有 MIT 学生 Isaac Rajagopal 的前期工作，他证明了一个指数级依赖关系。Gowers 把 Rajagopal 的论文交给 ChatGPT，并要求改进。

接下来发生的是逐步升级：16 分 41 秒后，模型给出了第一次改进。Rajagopal 判断这一步是正确的，但称其只是对自己工作的常规修改。随后，Gowers 用他自己的话说，变得“贪心”起来，并要求 ChatGPT 尝试给出一个强得多的界限。

在过去13分钟33秒后，模型表示乐观，但称仍有两项技术性陈述需要核查。再过9分钟12秒，核查完成。最终的预印本在31分钟40秒时准备就绪。模型把界限从指数级改进到了多项式级。

“这种想法，我会非常自豪地认为自己经过一两周的苦思冥想也能想出来。”

据Gowers称，Rajagopal表示，这些结果“几乎可以肯定是正确的”，无论是在单个证明步骤层面，还是在底层思路层面都是如此。

Rajagopal的评价相当审慎：第一次改进只是对他自己工作的“常规修改”。但将界限改进到多项式级，尽管如此，还是“相当令人印象深刻”。

Rajagopal把模型的关键想法称为“相当巧妙”。它找到了一种反直觉的方法，将某些代数结构压缩到一个小得多的数值范围内，同时不丢失它们关键的组合性质。

“这种想法，我会非常自豪地认为自己经过一两周的苦思冥想也能想出来，而ChatGPT用了不到一小时就找到了并证明了它，且使用的方法与我自己证明中的方法相似，”Rajagopal写道。就他所能判断，这个想法“完全是原创的”。

数学家如今的门槛，是证明LLM无法证明的东西

Gowers把这项成果评价为“组合数学博士论文里完全合理的一章”，并表示这并不是一个“惊人的结果”，因为它在很大程度上建立在Rajagopal的思路之上，但它“绝对是一个非平凡的延伸”。Gowers说，对于一名博士生而言，认真研读Rajagopal的论文、找出薄弱之处并调整这些技术，将会花费相当长的时间。

他由此得出了更为深远的结论：“如今，为数学做出贡献的门槛将是证明一些LLM证明不了的东西，而不再只是证明某个此前无人证明、且至少有人觉得有趣的东西。”不过，他也补充说，博士生可以把LLM当作工具。真正的任务将是与LLM协作创造出某种模型无法单独完成的成果。

Gowers提出了一个思想实验：“假设一位数学家通过与一个LLM进行长时间交流解决了一个重大问题，其中这位数学家起到了有用的引导作用，但技术工作和主要想法都由LLM完成。我们会把这视为这位数学家的重大成就吗？我不认为会。”

尽管如此，他仍然看重独立做数学时的挣扎。那些独自解决过难题的人，会对解题过程获得单靠阅读无法得到的洞见。“就像非常优秀的程序员比不那么优秀的程序员更擅长 vibe coding 一样，”Gowers写道。他预测：今天开始攻读博士、并且最早在2029年毕业的任何人，到那时都会看到数学研究“被改变得面目全非”。

这与明星数学家Terence Tao的设想不谋而合。Tao曾描述过一种由AI工具推动的“工业规模数学”，在这种模式下，拥有AI支持的大型团队进行广泛研究，而不是少数“独狼”花上多年时间钻研狭窄问题。

不过在当时，Tao曾把 AI 模型比作“平庸，但还不至于完全不称职”的研究助理。Gowers 使用 ChatGPT 5.5 Pro 的经历表明，这一判断可能已经过时了。Tao 最近的评论也积极得多。

生成式 AI 正在不断向数学领域深处推进

AI 在数学研究中的一个早期例子，是将 GPT-5 用作研究工具。OpenAI 研究人员曾声称，某个 GPT 模型“找到了”一个 Erdos 问题的解法。实际上，这个 AI 只是从文献中追踪到了一个现成解答，并没有形成自己的证明。

Tao 表示，真正明显的跃进出现在 GPT-5.2 Pro “基本上自主地”解决了 Erdos 问题 #728 之后。在现有文献中找不到对应解法。随后，GPT-5.4 Pro 更进一步，解决了一个长期悬而未决的 Erdos 问题。

这种进展也出现在其他领域。2025 年 12 月，一位物理学家发表了一篇论文，其核心想法来自 GPT-5。该作者预计，未来不久，人与 AI 的混合协作将成为数学、物理以及其他形式科学中的标准模式。随着大语言模型变得越来越精确，它们可能会日益充当自主研究代理。

为什么过早下结论是有风险的

Google DeepMind 在其 AI 代理 Aletheia 上既见过突破，也见过令人警醒的失败率。该系统基于 Gemini Deep Think 构建，曾独立撰写一篇数学论文、推翻一个沿用数十年的假设，并在一篇密码学论文中发现了错误。但当研究人员对它进行系统测试、检验 700 个开放数学问题时，只有 6.5% 的答案最终被证明是可用的。

Tao 一直在持续强调类似观点。他指出，Erdos 问题的难度可相差“几个数量级”。某个问题存在了 50 年，而 AI 将其解出，并不意味着它在半个世纪里一直抵抗了所有人类的努力。很多时候，只是没有人认真去做。

来源与参考

收录于 2026-05-10