大语言模型在编程数学上表现出色，却答不好日常问题——这并非矛盾

The Decoder·4月10日 19:23 UTC·作者 Matthias Bastian

关键信息

GPT-5.4Thinking 和 Claude Opus 4.6 等模型能自主重构代码库或发现漏洞，而免费版 ChatGPT 等消费级模型因缺乏明确反馈信号的强化学习，常无法回答基础日常问题。

资讯摘要

安德烈·卡帕西指出，大语言模型在编程和数学上出色但在日常问题上失败，其实反映了两种不同能力：专业级模型用于有明确验证机制的结构化环境，而消费级模型则缺乏这种强化学习。他强调，只有结果可以客观验证的任务（如编程）才更适合通过强化学习实现自动化，而写作或咨询这类主观领域则进展缓慢。

这解释了为什么高级模型能自主重构整个代码库或寻找安全漏洞，而旧版本或低价模型仍会犯简单错误。根本问题不是AI失败，而是任务可验证性与训练方法之间的不匹配。

资讯正文

LLMs在编程和数学上表现出色，但在应对日常问题时却束手无策，这其实并不矛盾

AI模型能在几小时内解决复杂的编程任务，但面对基本的日常问题时却会崩溃。安德烈·卡帕西（Andrej Karpathy）解释了为什么这实际上并不是矛盾。

根据卡帕西的说法，目前人们对AI进展有两种不同的看法。第一类人尝试过ChatGPT的免费版本或语音模式，然后带着由荒谬错误和幻觉形成的印象离开。卡帕西表示，这些过时的模型并不能反映当前的真实情况。

第二类人则使用最新的模型，比如OpenAI的GPT-5.4 Thinking或Claude Opus 4.6，并借助Codex或Claude Code等强大工具进行专业级的编程、数学和研究工作。卡帕西称，今年这些领域的进步非常显著，模型现在已能自主重构整个代码库，甚至独立发现安全漏洞。

卡帕西指出，这两类人基本上是在各自说话，彼此听不懂。

事实确实是：OpenAI的免费版本，我认为还有点被遗忘的“高级语音模式”，会在你的Instagram Reels里搞砸最简单的问题；而与此同时，OpenAI最高级别的付费Codex模型却能连续运行一小时，有条不紊地重构整个代码库，或者找出并利用计算机系统中的漏洞。

卡帕西 via X

卡帕西的观点指向了一个更大的问题：像编程或数学这样的领域，答案是否正确可以清晰判断，并且可以通过带有可验证奖励的强化学习来专门强化训练，因此AI在这类领域取得了比写作或咨询等模糊领域更明显、更具衡量性的进步——后者的优化缺乏明确指标。

为什么可验证性推动AI进步

这引发了一个当前AI研究的核心问题：通用智能是否真的能从语言模型中产生？还是说这些模型只能被调优以在特定领域表现良好？

卡帕西在一篇早期文章中阐述了这一结构性难题：在“软件2.0”范式下，真正重要的是你能否验证结果，而不是你能否指定任务。只有当系统获得自动化反馈（如通过/失败检查或明确奖励信号）时，才能高效地通过强化学习进行训练。“一个任务或工作的可验证程度越高，在新的编程范式中就越适合自动化，”卡帕西说。

去年夏天曾流传关于OpenAI将推出一种通用验证器的消息，该验证器能让强化学习适用于所有领域。但截至目前，还没有具体产品问世。与此同时，负责OpenAI强化学习策略的关键人物之一杰瑞·特沃雷克（Jerry Tworek）最近离开了公司，并表示“深度学习研究已经结束”。

来源与参考