New math benchmark reveals AI models confidently solve problems that have no solution
The Decoder··作者 Jonathan Kemper
资讯摘要
New math benchmark reveals AI models confidently solve problems that have no solution A consortium of 64 mathematicians built a new benchmark for AI models that exposes two weaknesses: research-level math and the ability to recognize unsolvable tasks. With today's frontier models already hitting IMO Gold level, AI research needs new math benchmarks. SOOHAK, developed at Carnegie Mellon University, EleutherAI, and Seoul National University, among others, consists of 439 original tasks.

资讯正文
一项新的数学基准揭示,AI 模型会自信地解决那些根本没有解的问题
由 64 位数学家组成的一个联盟为 AI 模型构建了一个新的基准,用来暴露两项弱点:研究级数学能力,以及识别不可解任务的能力。
随着当今最前沿的模型已经达到 IMO 金牌水平,AI 研究需要新的数学基准。SOOHAK 由卡内基梅隆大学、EleutherAI 和首尔国立大学等机构共同开发,包含 439 道原创题目。
这些题目分为两个部分:一套“Challenge”题集,包含 340 道研究生和研究级难度的问题;以及一套“Refusal”题集,包含 99 道故意设计有缺陷的问题,它们要么包含矛盾,要么无法给出明确答案。
与常见题库不同,SOOHAK 并不是从竞赛或教材中摘取而来。每一道题都是由一个团队从零开始编写,团队成员包括 38 位教授、25 名博士生和博士后,以及 5 位 IMO 奖牌获得者。提交前,每位贡献者都必须确认自己是在没有 AI 帮助的情况下完成的。任何被发现偷偷使用 LLM 生成题目的人都会被踢出项目。
研究级数学仍然是一道难以逾越的墙
根据作者的说法,Google 的 Gemini 3 Pro 在 challenge 题集上的得分最高,达到 30%;其次是 GPT-5(5.1、5.2),得分为 26%。Claude Opus 4.5 则降至 10%。Kimi-2.5、Qwen3-235B 和 GPT-OSS-120B 等开权重模型都低于 15%。在 challenge 题目中,受测模型没有一个能解出其中 124 道。
在更容易的配套题集 SOOHAK-Mini 上——其难度从学校奥赛到大学低年级水平不等——各模型得分高得多,而且顶级模型之间的差距也更小。只有到了研究级数学,差距才真正拉开,尤其是对开权重模型而言。作者表示,这说明开权重系统在未公开材料上的迁移效果更差,因为它们在一些冷门领域的训练覆盖不足。
当没有解时,模型还是会猜
与早期基准相比,真正的突破在于 refusal 题集。这里面的问题在质检时就被标记为不可解,因为它们缺少前提条件或包含矛盾。只有模型识别出并指出问题中的缺陷,而不是自信地给出一个数字,才算得分。
在这一部分,没有任何模型超过 50%。开权重的 GLM-5 表现最好,得分略低于 50%,超过了 GPT-5 和 Gemini 3 Pro。Qwen3 系列则崩到 3% 以下,几乎总是无法正确标记出一道有问题的题目。
作者将识别有缺陷的问题描述为“当前模型并未直接针对的一种新的优化目标”。随着模型规模和推理预算增加,解题率几乎线性上升,但 refusal 表现并不遵循同样的规律。更多算力会让模型更擅长解题,却不会让它们更擅长承认一道题其实无解。
奥赛经验胜过研究深度
为了进行人类对比,团队招募了 25 名参与者,分成五组,从 IMO 奖牌获得者到数学博士不等。在 79 道题的一个选集上,这些组别合计解出了 51%。只有 Gemini-3-Pro 超过了这一综合人类覆盖率,达到 61%。
事实上,博士研究者的表现还不如有奥赛背景的学生。作者将此归因于形式:4.5小时的时间窗口奖励的是在数学竞赛中训练出来的短解题路径,而该基准覆盖的题目范围又太广,无法帮助聚焦某个研究专长方向。SOOHAK主要衡量的是高压时间下的竞赛数学能力,而不是研究深度。
数据集将锁定至2026年,且其形式存在缺口
完整数据集要到2026年底才会公开,这是为了防止训练数据污染。在那之前,团队会应请求对模型进行评测。作者也坦率承认了SOOHAK的不足:要求给出干净的数值答案,会把高等数学中大量更适合通过证明、构造或反例来考察的内容排除在外。未来版本需要更丰富的形式,例如形式化证明助手或专家评审小组。
AI模型在研究数学中究竟能走多远,仍然是一个悬而未决的问题。菲尔兹奖得主Timothy Gowers最近表示,ChatGPT 5.5 Pro在不到两小时内就给出了一项数论中的博士水平结果,把一个指数上界改进成了一个多项式上界。GPT-5.2 Pro则提出了Erdos问题#281的一项新证明,数学家Terence Tao称其与早先的证明“相当不同”。
不过,Tao对这些胜利的解读仍然十分谨慎。当他对公开的Erdos问题进行系统性检查时,这些模型的真实成功率只有1%到2%,而且主要集中在较容易的问题上。SOOHAK试图厘清的,正是少数几个惊艳结果与真正广泛的研究能力之间的这道鸿沟。
来源与参考
收录于 2026-05-18