大语言模型在编程数学上表现出色,却答不好日常问题——这并非矛盾

The Decoder··作者 Matthias Bastian

关键信息

GPT-5.4Thinking 和 Claude Opus 4.6 等模型能自主重构代码库或发现漏洞,而免费版 ChatGPT 等消费级模型因缺乏明确反馈信号的强化学习,常无法回答基础日常问题。

资讯摘要

安德烈·卡帕西指出,大语言模型在编程和数学上出色但在日常问题上失败,其实反映了两种不同能力:专业级模型用于有明确验证机制的结构化环境,而消费级模型则缺乏这种强化学习。他强调,只有结果可以客观验证的任务(如编程)才更适合通过强化学习实现自动化,而写作或咨询这类主观领域则进展缓慢。

这解释了为什么高级模型能自主重构整个代码库或寻找安全漏洞,而旧版本或低价模型仍会犯简单错误。根本问题不是AI失败,而是任务可验证性与训练方法之间的不匹配。

大语言模型在编程数学上表现出色,却答不好日常问题——这并非矛盾

资讯正文

LLMs在编程和数学上表现出色,但在应对日常问题时却束手无策,这其实并不矛盾

AI模型能在几小时内解决复杂的编程任务,但面对基本的日常问题时却会崩溃。安德烈·卡帕西(Andrej Karpathy)解释了为什么这实际上并不是矛盾。

根据卡帕西的说法,目前人们对AI进展有两种不同的看法。第一类人尝试过ChatGPT的免费版本或语音模式,然后带着由荒谬错误和幻觉形成的印象离开。卡帕西表示,这些过时的模型并不能反映当前的真实情况。

第二类人则使用最新的模型,比如OpenAI的GPT-5.4 Thinking或Claude Opus 4.6,并借助Codex或Claude Code等强大工具进行专业级的编程、数学和研究工作。卡帕西称,今年这些领域的进步非常显著,模型现在已能自主重构整个代码库,甚至独立发现安全漏洞。

卡帕西指出,这两类人基本上是在各自说话,彼此听不懂。

事实确实是:OpenAI的免费版本,我认为还有点被遗忘的“高级语音模式”,会在你的Instagram Reels里搞砸最简单的问题;而与此同时,OpenAI最高级别的付费Codex模型却能连续运行一小时,有条不紊地重构整个代码库,或者找出并利用计算机系统中的漏洞。

卡帕西 via X

卡帕西的观点指向了一个更大的问题:像编程或数学这样的领域,答案是否正确可以清晰判断,并且可以通过带有可验证奖励的强化学习来专门强化训练,因此AI在这类领域取得了比写作或咨询等模糊领域更明显、更具衡量性的进步——后者的优化缺乏明确指标。

为什么可验证性推动AI进步

这引发了一个当前AI研究的核心问题:通用智能是否真的能从语言模型中产生?还是说这些模型只能被调优以在特定领域表现良好?

卡帕西在一篇早期文章中阐述了这一结构性难题:在“软件2.0”范式下,真正重要的是你能否验证结果,而不是你能否指定任务。只有当系统获得自动化反馈(如通过/失败检查或明确奖励信号)时,才能高效地通过强化学习进行训练。“一个任务或工作的可验证程度越高,在新的编程范式中就越适合自动化,”卡帕西说。

去年夏天曾流传关于OpenAI将推出一种通用验证器的消息,该验证器能让强化学习适用于所有领域。但截至目前,还没有具体产品问世。与此同时,负责OpenAI强化学习策略的关键人物之一杰瑞·特沃雷克(Jerry Tworek)最近离开了公司,并表示“深度学习研究已经结束”。

来源与参考

  1. 原始链接
  2. LLMs crush coding and math but choke on casual questions, and that's not a contradiction

收录于 2026-04-11