AlphaProof Nexus 以低成本攻克开放数学难题

The Decoder··作者 Matthias Bastian

关键信息

该系统使用 Gemini 3.1 Pro 生成 Lean 证明步骤,并由 Lean 编译器在步骤失败时提供即时反馈。DeepMind 描述了四种代理变体,事后分析还发现,最简单的“LLM 加编译器反馈”循环也能解决这 9 个 Erdős 问题,只是在最难的问题上成本更高。

资讯摘要

Google DeepMind 的 AlphaProof Nexus 被描述为一个把语言模型生成证明与 Lean 形式化验证结合起来的框架。报道称,它在尝试的 353 个开放 Erdős 问题中,自动解决了 9 个,其中包括两个已经悬而未决 56 年的问题。它还证明了《整数数列在线百科全书》(OEIS)中的 492 个开放猜想里的 44 个,解决了一个关于代数几何中 Hilbert 函数的 15 年旧问题,并改进了一个凸优化中的已知界。报道提到,每个问题的推理成本只有几百美元。其核心机制是由 Gemini 3.1 Pro 在 Lean 中提出证明步骤,然后由编译器检查这些步骤,并把错误信息反馈给下一轮尝试。

DeepMind 认为,这种方式把模型推理锚定在符号反馈上,减少了语言模型独自承担完整逻辑链条的压力。该系统包含四种复杂度逐步提升的代理,最先进的版本结合了独立证明搜索、AlphaProof 式的缺失片段补全,以及进化式排名循环。不过,事后分析发现,最简单的代理只靠 LLM 和编译器反馈,也能证明这 9 个 Erdős 问题,这说明模型能力提升和编译器反馈可能才是主要驱动力。研究人员同时强调,大多数 Erdős 问题仍然没有被解决,尤其是那些需要大量新理论的问题,而且该方法仍受底层语言模型可靠性的限制。即便如此,他们认为这种方法的价值不只在于完成证明,还可能帮助数学家探索方向并支持研究流程。

AlphaProof Nexus 以低成本攻克开放数学难题

资讯正文

Google DeepMind 的 AlphaProof Nexus 只花几百美元就解决了数十年前的数学难题

要点

- Google DeepMind 开发了 AlphaProof Nexus,这是一个框架,能够自主解决 353 个开放的 Erdős 数学问题中的 9 个,以及其他复杂猜想;按每个问题计算,推理成本仅为几百美元。

- 该系统依赖 Gemini 3.1 Pro 语言模型在 Lean 中生成证明步骤。Lean 是一种用于数学验证的形式化编程语言,从而实现严谨且可机器检查的解答。

- 尽管绝大多数 Erdős 问题仍超出了 AI 的能力范围,DeepMind 研究人员仍认为,该系统是支持数学研究的宝贵工具。

AlphaProof Nexus 将 LLM 驱动的证明生成与机器验证结合起来,攻克了困扰数学家数十年的数学研究问题。

Google DeepMind 的新框架 AlphaProof Nexus 在其尝试的 353 个开放 Erdős 问题中,已自主解决了 9 个,其中包括两个已悬而未决 56 年的问题。

该系统还证明了《整数数列在线百科全书》(OEIS)中的 492 个开放猜想里的 44 个,解决了一个关于代数几何中 Hilbert 函数的 15 年旧问题,并改进了一个已知的凸优化界限。根据研究论文,其推理成本每个问题仅为几百美元。

不同于 OpenAI 最近那种(可能)纯自然语言式的解法,AlphaProof Nexus 背后的语言模型——在这里是 Gemini 3.1 Pro——不必独自承担完整的逻辑链条。

相反,它使用 Lean 的形式化语言生成证明步骤,由编译器逐步检查每一步。错误信息会直接反馈到下一次尝试中。这样一来,LLM 就通过符号反馈得到了锚定,这种安全网弥补了语言模型在逻辑推理方面众所周知的弱点。人类只会在最后阶段介入,检查结果。

四个代理,一个出人意料的结果

该系统由四种复杂度逐步提升的代理变体组成。最简单的 Agent (A) 通过循环运行基于 Gemini 3.1 Pro 的独立子代理:语言模型生成证明步骤,Lean 编译器检查这些步骤,错误信息再反馈到下一次尝试中。

Agent (B) 额外查询 AlphaProof——Google 基于强化学习的奥赛数学系统,它可以补全缺失的证明片段。Agent (C) 引入了进化式组件。受 AlphaEvolve 启发,子代理共享一个共同的证明草图种群。基于 Gemini 3.0 Flash 构建的评分代理会根据可信度和新颖性对这些草图打分,然后使用 Elo 系统进行排序。功能最完整的 Agent (D) 将上述所有能力结合在一起。

Erdős 问题使用的是 Agent (D)。但事后分析带来了一个惊喜:最简单的 Agent (A)——只使用 LLM 和编译器反馈——也能证明全部 9 个已解决的 Erdős 问题,不过在最难的题目上成本更高。

研究人员将这个简单代理的成功归因于两个因素:底层语言模型的快速改进,以及“编译器反馈在让 LLM 推理落地方面的力量”。目前,功能完整的代理在最难的任务上仍占有优势,但随着 LLM 变得更强,这一领先优势可能会缩小。研究人员表示,这指向一个更广泛的趋势,他们将其描述为“随着 LLM 能力不断增强,从专门训练的系统向简单的代理式循环持续转变”。

即使没有完整证明也有用

该系统的成功主要集中在组合数学、凸优化和数论等领域,在这些领域里,Lean 的数学库 Mathlib 已经相当成熟,而且问题可以分解为可管理的子目标。研究人员写道,大多数 Erdős 问题仍然难以触及,“更不用说那些需要大量新理论的问题了”。这些代理还继承了底层语言模型的不可靠性。

尽管如此,研究人员认为其价值并不局限于已解决的问题。与系统合作的数学家表示,即便证明尝试最终失败,也加深了他们对问题的理解;正如作者所说,“AI 驱动的形式化证明搜索不仅可以用于解决问题,也可以加深人类理解。”

由于这些证明草图是形式化的,专家们可以把注意力集中在尚未解决的子目标上,而不必从头重新核对整个论证。事实证明,这些代理在发现文献中有缺陷的形式化方面也很有效。作者写道:“形式化验证可以作为一种过滤器,用于判断哪些证明值得人类审查。”

论文称,该系统已经被用于量子光学和图论的持续研究中。所有 Lean 证明以及选定的自然语言证明都已在 GitHub 上公开。

Erdős 问题成为 AI 数学的基准

OpenAI 最近使用一种专有推理模型推翻了 Erdős 的单位距离猜想。菲尔兹奖得主 Tim Gowers 称这“是 AI 数学领域的一个里程碑”。在此之前,GPT-5.2 Pro 帮助解决了 Erdős 问题 #281,Terence Tao 称这一案例“也许是 LLM 解决开放数学问题最无可争议的实例”。随后,GPT-5.4 又解决了另一个 Erdős 问题。

从某种程度上说,这些结果比 Deepmind 的方法更令人印象深刻。语言模型必须在没有 Lean 编译器逐步检查的情况下,通过自然语言承担整个逻辑链条。AlphaProof Nexus 更加系统化,也更具可扩展性,但它瞄准的是一个不同的目标:打造一个适用于日常数学研究的可靠 AI 工具。当然,OpenAI 也可以把 Lean 集成到他们的脚手架中,但那里的重点更多是测试原始 LLM 能力。

不过,Tao 过去曾警告不要对这些头条过度解读。AI 在 Erdős 问题上的实际成功率只有 1% 到 2%,而且主要集中在较容易的任务上。谷歌的系统只解出了 353 道题中的 9 道。这与 Tao 提出的 2% 门槛几乎完全一致。

来源与参考

  1. 原始链接
  2. Google Deepmind's AlphaProof Nexus solves decades-old math problems for a few hundred dollars

收录于 2026-05-26