五分钟看懂 LLM 六个月变化

Simon Willison·5月19日 09:09 UTC·作者 Simon Willison

关键信息

Willison 用“生成一只骑自行车的鹈鹕的 SVG”测试来比较模型表现，并强调这是一个故意荒诞的任务，厂商不会专门针对它进行训练优化。他指出，11 月初普遍公认的“最佳”模型是 Claude Sonnet 4.5，随后依次被 GPT-5.1、Gemini 3、GPT-5.1 Codex Max 以及 Claude Opus 4.5 超越。

资讯摘要

Simon Willison 发布了他在 PyCon US 2026 上做的五分钟闪电演讲的注释版幻灯片。这个演讲试图用极短的篇幅总结过去六个月里 LLM 的主要进展。Willison 将这段时间称为一个很值得回顾的窗口，因为它覆盖了他所谓的 2025 年 11 月“转折点”。他表示，11 月对 LLM 尤其是编程能力来说是一个关键月份。

在这段时间里，关于哪个模型“最好”的非正式判断，在 Anthropic、OpenAI 和 Google 之间来回变化了五次。为了展示不同模型之间的差异，他使用了自己长期沿用的“生成一只骑自行车的鹈鹕的 SVG”测试。Willison 认为这个测试有价值，正是因为它很怪、很难被针对性优化，而且任何实验室都没有动力专门为这种任务训练模型。这组幻灯片以注释图片形式呈现，并使用了他最新版本的注释演示工具制作。

资讯正文

我把这些带注释的幻灯片整理自我在 PyCon US 2026 上做的五分钟闪电演讲，使用的是我<a href="https://tools.simonwillison.net/annotated-presentations">最新一版</a>的<a href="https://simonwillison.net/2023/Aug/6/annotated-presentations/">带注释演示工具</a>。

我在 PyCon US 2026 上做了这场闪电演讲，试图用五分钟总结过去六个月里 LLM 的发展。

六个月是一个相当方便的时间跨度，因为它涵盖了我一直所说的<a href="https://simonwillison.net/tags/november-2025-inflection/">2025 年 11 月拐点</a>。11 月对 LLM 来说是至关重要的一个月，尤其是在编码方面。

其中一件事是，所谓“最佳”模型（这很大程度上取决于感觉）在三家大厂之间五次易手。

一如既往，我用我的<a href="https://simonwillison.net/tags/pelican-riding-a-bicycle/">“生成一只骑自行车的鹈鹕的 SVG”</a>测试来帮助说明不同模型之间的差异。

为什么用这个测试？因为鹈鹕很难画，自行车也很难画，鹈鹕<em>不可能骑自行车</em>……而且任何 AI 实验室都不太可能会为这样一个荒谬的任务训练模型。

11月初，公认“最佳”的模型是 Claude Sonnet 4.5，它于9月29日发布。它给我画了一只鹈鹕。

到了11月，它先后被 GPT-5.1、Gemini 3、GPT-5.1 Codex Max 超越，随后 Anthropic 又凭借 Claude Opus 4.5 把王座夺了回来。

我认为在这些模型里，Gemini 3 画出的鹈鹕最好，但鹈鹕并不是一切。大多数实践者都会同意，Opus 4.5 在接下来的几个月里一直占据着头把交椅。

起初这件事并不那么明显，但11月真正的大新闻是：编码代理已经变得“很好”了。

OpenAI 和 Anthropic 在2025年大部分时间里都在运行基于可验证奖励的强化学习，以提高其模型编写代码的质量，尤其是在与各自的 Codex 和 Claude Code 代理框架配合使用时。

到了11月，这项工作的成果开始显现。编码代理从“经常能用”变成了“基本都能用”，跨过了一道质量门槛：你可以把它们当作日常主力工具来完成真正的工作，而不需要把大部分时间都花在修正它们那些愚蠢的错误上。

11月还发生了这件事——一个当时还很不起眼、名为“Warelay”的仓库迎来了第一次提交，提交者是个叫 Pete 的人。

12月/1月

（少量 LLM 精神病）

在假期期间，从 12 月到 1 月，我们很多人都趁着休息时间去试了试这些新模型和编程代理，看看它们能做些什么。

它们能做很多事！我们当中有些人还兴奋得有点过头。我自己也短暂地经历过一种 LLM 妄想症，开始启动一些野心勃勃得离谱的项目，想看看自己能把它们推到什么程度。

我当时做的一个项目，是用 Python 以“vibe coding”的方式实现 JavaScript——可以说是对 MicroQuickJS 的一个宽松移植——我把它叫作 micro-javascript。你可以在这个在线 playground 里亲自试试。

那个 playground 演示的是：用我的 micro-javascript 库在 Python 中运行 JavaScript 代码，而 Python 又运行在 Pyodide 中，Pyodide 运行在 WebAssembly 里，WebAssembly 运行在 JavaScript 中，而 JavaScript 运行在浏览器里！

这挺酷的！但外面真的有人需要一个有 bug、速度慢、不安全、半吊子的 Python 版 JavaScript 实现吗？

并没有。我在那个假期期间还有不少别的项目，后来都悄悄停掉了！

二月 2026

到了二月。还记得那个 Warelay 项目吗？它的第一个提交是在十一月底。

到了十二月和一月，它经历了<a href="https://simonwillison.net/2026/May/16/openclaw-names/">相当多次改名</a>……而到了二月，它已经以最终名称 <a href="https://openclaw.ai/">OpenClaw</a> 横扫世界。

对于一个还不到三个月大的项目来说，它获得的关注量相当惊人。

OpenClaw 是一种“personal AI assistant”，而我们其实也得到了这类产品的一个通用称呼，基于 NanoClaw、ZeroClaw 之类的命名……它们被称为 <strong>Claws</strong>。

硅谷周边的 Mac Mini 开始脱销，因为人们买它们来运行自己的 Claws。

<a href="https://www.dbreunig.com/">Drew Breunig</a> 跟我开玩笑说，这是因为它们是新型数字宠物，而 Mac Mini 是给你的 Claw 配的完美“鱼缸”。

我最喜欢的 Claws 隐喻，是阿尔弗雷德·莫利纳在 2004 年电影《蜘蛛侠 2》里饰演的 Doc Ock。他的爪子由 AI 驱动，只要没有什么东西损坏他的抑制芯片，就完全安全……而一旦抑制芯片坏了，它们就会变坏并接管一切。

另外在 2 月：Gemini 3.1 Pro 发布了，还给我画了一只“真的很棒的骑自行车的鹈鹕”。看看这个！它篮子里甚至还有一条鱼。

然后，Google 的 Jeff Dean 发了这段动画视频：一只骑自行车的鹈鹕，外加一只骑着高轮自行车的青蛙、一只开迷你车的长颈鹿、一只穿轮滑鞋的鸵鸟、一只给滑板做 kickflip 的海龟，以及一只开加长豪华轿车的腊肠犬。

所以，也许 AI 实验室其实一直都有在留意这件事！

仅仅在过去一个月里，就发生了很多事情。

Google 发布了 Gemma 4 系列模型，这是我见过美国公司推出的最强大的开放权重模型。

上个月，中国 AI 实验室 GLM 也发布了 GLM-5.1——一个开放权重、1.5TB 的怪物级模型！如果你负担得起运行它所需的硬件，这会是一个非常高效的模型……

GLM-5.1 给我画了这只相当能干的、骑自行车的鹈鹕。

……不过当我让它尝试把这幅图动起来时，自行车就被甩到了画面的顶部，而且车身也变形了。

Charles 在 Bluesky 上建议我试试让它画一只骑电动滑板车的北弗吉尼亚负鼠。

结果它真的做出来了！我在其他模型上试过这个，它们完全比不上。“从黄昏开始巡游联邦”这句简直完美。它还有动画版本。

4 月份另一个不错的中文开源权重模型来自 Qwen。Qwen3.6-35B-A3B 在我的笔记本电脑上画出的鹈鹕，比 Claude Opus 4.7 画得还好。这是一个 20.9GB 的开源权重模型，能在我的笔记本电脑上运行！

（我认为这主要说明，骑自行车的鹈鹕作为一个有用的基准测试，已经彻底超出了它的适用范围。）

这是去年 9 月那只 Claude Sonnet 4.5 鹈鹕，拿来作个对比。

所以，这就是过去六个月里的两个主要主题：编码代理真的变得非常好……而且那些可在笔记本电脑上运行的模型，虽然比前沿模型弱得多，但已经开始远远超出预期。

来源与参考

收录于 2026-05-20