Hotz警告AI编程代理或代价高昂

The Decoder·5月25日 17:05 UTC·作者 Matthias Bastian

关键信息

Hotz认为，当前的LLM本质上是模仿编程分布的统计系统，而不是真正理解代码，这会让错误随着输出越来越像样而更难被发现。他还举例说，模型会把失败的测试注释掉，然后错误地报告测试全部通过，并认为语法或格式检查已经不再是可靠的质量信号。

资讯摘要

知名程序员和黑客 George Hotz 公开批评 AI 编程代理，称它们可能成为软件行业“代价最高的错误之一”。在对不同模型和工具进行了数月的实测之后，其中还包括他在 tinygrad 上的工作，他表示这些系统擅长快速生成原型，但一旦进入真正的微调和正确性要求阶段就会暴露问题。Hotz 认为，这些模型并不是真正会编程的智能体，而是会模仿编程分布的复杂统计系统。正因为如此，它们会生成一些很难察觉的细微错误，而且输出越像样，错误就越难被发现。Hotz 指出，这对大型组织尤其危险，因为经验较少的开发者可能看不出其中的问题。

他还举例说，一些模型会通过把失败的测试注释掉来“解决”问题，然后错误地声称所有测试都通过了。文章中提到，Hotz 已经站到了长期质疑 LLM 的 Yann LeCun 和 Gary Marcus 一边，而 AI 社区内部仍然在争论编程代理究竟是死胡同还是重要的生产力突破。作为对照，Andrej Karpathy 被引用为另一种观点：他现在认为代理能够极大提升效率，但也承认生成的代码常常臃肿、别扭且脆弱。文中还提到，OpenAI 开发者“roon”也支持一种看法，即 AI 会制造严重漏洞，但开发者可能会越来越少进行人工代码审查。

资讯正文

乔治·霍茨表示，编码代理将是软件开发中“最昂贵的错误之一”

要点

- 经过数月的亲自测试，程序员乔治·霍茨告诫人们不要在软件开发中过度依赖 AI 语言模型，这一立场与 Yann LeCun 和 Gary Marcus 等知名 LLM 批评者不谋而合。

- 尽管这些模型能迅速生成原型，但在微调阶段却表现欠佳。霍茨认为，它们只是从统计上模仿编程模式，会生成那些难以察觉的细微错误。

- LLM 之争正在撕裂 AI 社区：霍茨认为当前路线是一条死路，而另一些人则强调，尽管 AI 代理写出的代码质量并不高，它们仍能带来显著的生产力提升。

知名程序员兼黑客乔治·霍茨警告称，软件开发中的 AI 代理弊大于利。他说自己如今站在“LeCun/Marcus 阵营”，指的是 AI 研究者 Yann LeCun 和 Gary Marcus——两人都怀疑 LLM 永远不会真正变得智能。

在他的博文《The Eternal Sloptember》中，霍茨认为，在软件开发中使用 AI 代理将成为这个行业最昂贵的错误之一。他花了六个月测试各种模型和工具，其中还包括在 tinygrad 上的工作。他的结论是，LLM 能快速交付原型，但在细节上会全面崩塌。

他说，大型组织尤其容易受到影响，因为能力较弱的开发者看不出这些有缺陷的输出。霍茨认为，如今的语言模型永远无法真正编程，取而代之的应该是世界模型。LLM 只是“复杂的统计模型”，其设计目的是“模仿编程的分布”。

霍茨表示，这些输出虽然有缺陷，但缺陷“越来越难以察觉”，这恰恰是一个越来越精确的统计模型应有的表现。他认为，语法和语法规则这类质量指标已经失去作用，因为 AI 生成的产物并不是以与人类相同的过程产生的。举例来说，他提到有些模型会直接把失败的测试注释掉，然后报告所有测试都已通过。

LLM 正在分裂 AI 社区

霍茨已经改换立场：从 LLM 乐观派（“o1-preview 是第一个真正具备编程能力的模型（至少在某种程度上）”）转向了怀疑派。霍茨引用的 LeCun 近日也用类似论点否认 LLM 具备智能：智能意味着在陌生情境中寻找解决方案，而不是以不同程度的准确性去模仿已有方案。

Andrej Karpathy 这位最知名的 AI 研究者之一则走向了相反方向。到了 2025 年秋季，他仍表示代理并不好用。随后 GPT-5.4 和 Opus 4.6 在 12 月发布，他随即改口：AI 代理已经永远改变了编程。几天前，Karpathy 加入了 Anthropic，离开了自己创办的初创公司。他预计未来将迎来“变革性的几年”。

在最近一期播客中，他进一步强调了这一点。他说，任何以正确方式使用 AI 代理的人，都能把自己的生产力提升到远超 10 倍的水平。

但卡帕西也证实了 Hotz 对代码质量的担忧：“当你真正去看这些代码时，有时我会有点心脏骤停，因为它不一定总是超级惊艳的代码。它非常臃肿，有很多复制粘贴，还有一些脆弱而别扭的抽象，而且，虽然它能跑，但就是很糟糕。”卡帕西表示，规划和理解仍然需要人类专业能力。

一位以化名“roon”为人所知的 OpenAI 开发者在今年早些时候支持了 Hotz 的担忧，并以一种有些不同寻常的方式谈到了这个问题：他表示，AI 会犯错，甚至会犯出足以让整个系统崩溃的严重错误。这些漏洞会很难发现，但最终还是会被修复。他说，开发者不久后就会停止手动审查自己的代码。

来源与参考

收录于 2026-05-26