五分钟看懂 LLM 六个月变化
Simon Willison··作者 Simon Willison
关键信息
Willison 用“生成一只骑自行车的鹈鹕的 SVG”测试来比较模型表现,并强调这是一个故意荒诞的任务,厂商不会专门针对它进行训练优化。他指出,11 月初普遍公认的“最佳”模型是 Claude Sonnet 4.5,随后依次被 GPT-5.1、Gemini 3、GPT-5.1 Codex Max 以及 Claude Opus 4.5 超越。
资讯摘要
Simon Willison 发布了他在 PyCon US 2026 上做的五分钟闪电演讲的注释版幻灯片。这个演讲试图用极短的篇幅总结过去六个月里 LLM 的主要进展。Willison 将这段时间称为一个很值得回顾的窗口,因为它覆盖了他所谓的 2025 年 11 月“转折点”。他表示,11 月对 LLM 尤其是编程能力来说是一个关键月份。
在这段时间里,关于哪个模型“最好”的非正式判断,在 Anthropic、OpenAI 和 Google 之间来回变化了五次。为了展示不同模型之间的差异,他使用了自己长期沿用的“生成一只骑自行车的鹈鹕的 SVG”测试。Willison 认为这个测试有价值,正是因为它很怪、很难被针对性优化,而且任何实验室都没有动力专门为这种任务训练模型。这组幻灯片以注释图片形式呈现,并使用了他最新版本的注释演示工具制作。

资讯正文
我把这些带注释的幻灯片整理自我在 PyCon US 2026 上做的五分钟闪电演讲,使用的是我<a href="https://tools.simonwillison.net/annotated-presentations">最新一版</a>的<a href="https://simonwillison.net/2023/Aug/6/annotated-presentations/">带注释演示工具</a>。
我在 PyCon US 2026 上做了这场闪电演讲,试图用五分钟总结过去六个月里 LLM 的发展。
六个月是一个相当方便的时间跨度,因为它涵盖了我一直所说的<a href="https://simonwillison.net/tags/november-2025-inflection/">2025 年 11 月拐点</a>。11 月对 LLM 来说是至关重要的一个月,尤其是在编码方面。
其中一件事是,所谓“最佳”模型(这很大程度上取决于感觉)在三家大厂之间五次易手。
一如既往,我用我的<a href="https://simonwillison.net/tags/pelican-riding-a-bicycle/">“生成一只骑自行车的鹈鹕的 SVG”</a>测试来帮助说明不同模型之间的差异。
为什么用这个测试?因为鹈鹕很难画,自行车也很难画,鹈鹕<em>不可能骑自行车</em>……而且任何 AI 实验室都不太可能会为这样一个荒谬的任务训练模型。
11月初,公认“最佳”的模型是 Claude Sonnet 4.5,它于9月29日发布。它给我画了一只鹈鹕。
到了11月,它先后被 GPT-5.1、Gemini 3、GPT-5.1 Codex Max 超越,随后 Anthropic 又凭借 Claude Opus 4.5 把王座夺了回来。
我认为在这些模型里,Gemini 3 画出的鹈鹕最好,但鹈鹕并不是一切。大多数实践者都会同意,Opus 4.5 在接下来的几个月里一直占据着头把交椅。
起初这件事并不那么明显,但11月真正的大新闻是:编码代理已经变得“很好”了。
OpenAI 和 Anthropic 在2025年大部分时间里都在运行基于可验证奖励的强化学习,以提高其模型编写代码的质量,尤其是在与各自的 Codex 和 Claude Code 代理框架配合使用时。
到了11月,这项工作的成果开始显现。编码代理从“经常能用”变成了“基本都能用”,跨过了一道质量门槛:你可以把它们当作日常主力工具来完成真正的工作,而不需要把大部分时间都花在修正它们那些愚蠢的错误上。
11月还发生了这件事——一个当时还很不起眼、名为“Warelay”的仓库迎来了第一次提交,提交者是个叫 Pete 的人。
12月/1月
(少量 LLM 精神病)
在假期期间,从 12 月到 1 月,我们很多人都趁着休息时间去试了试这些新模型和编程代理,看看它们能做些什么。
它们能做很多事!我们当中有些人还兴奋得有点过头。我自己也短暂地经历过一种 LLM 妄想症,开始启动一些野心勃勃得离谱的项目,想看看自己能把它们推到什么程度。
我当时做的一个项目,是用 Python 以“vibe coding”的方式实现 JavaScript——可以说是对 MicroQuickJS 的一个宽松移植——我把它叫作 micro-javascript。你可以在这个在线 playground 里亲自试试。
那个 playground 演示的是:用我的 micro-javascript 库在 Python 中运行 JavaScript 代码,而 Python 又运行在 Pyodide 中,Pyodide 运行在 WebAssembly 里,WebAssembly 运行在 JavaScript 中,而 JavaScript 运行在浏览器里!
这挺酷的!但外面真的有人需要一个有 bug、速度慢、不安全、半吊子的 Python 版 JavaScript 实现吗?
并没有。我在那个假期期间还有不少别的项目,后来都悄悄停掉了!
二月 2026
到了二月。还记得那个 Warelay 项目吗?它的第一个提交是在十一月底。
到了十二月和一月,它经历了<a href="https://simonwillison.net/2026/May/16/openclaw-names/">相当多次改名</a>……而到了二月,它已经以最终名称 <a href="https://openclaw.ai/">OpenClaw</a> 横扫世界。
对于一个还不到三个月大的项目来说,它获得的关注量相当惊人。
OpenClaw 是一种“personal AI assistant”,而我们其实也得到了这类产品的一个通用称呼,基于 NanoClaw、ZeroClaw 之类的命名……它们被称为 <strong>Claws</strong>。
硅谷周边的 Mac Mini 开始脱销,因为人们买它们来运行自己的 Claws。
<a href="https://www.dbreunig.com/">Drew Breunig</a> 跟我开玩笑说,这是因为它们是新型数字宠物,而 Mac Mini 是给你的 Claw 配的完美“鱼缸”。
我最喜欢的 Claws 隐喻,是阿尔弗雷德·莫利纳在 2004 年电影《蜘蛛侠 2》里饰演的 Doc Ock。他的爪子由 AI 驱动,只要没有什么东西损坏他的抑制芯片,就完全安全……而一旦抑制芯片坏了,它们就会变坏并接管一切。
另外在 2 月:Gemini 3.1 Pro 发布了,还给我画了一只“真的很棒的骑自行车的鹈鹕”。看看这个!它篮子里甚至还有一条鱼。
然后,Google 的 Jeff Dean 发了这段动画视频:一只骑自行车的鹈鹕,外加一只骑着高轮自行车的青蛙、一只开迷你车的长颈鹿、一只穿轮滑鞋的鸵鸟、一只给滑板做 kickflip 的海龟,以及一只开加长豪华轿车的腊肠犬。
所以,也许 AI 实验室其实一直都有在留意这件事!
仅仅在过去一个月里,就发生了很多事情。
Google 发布了 Gemma 4 系列模型,这是我见过美国公司推出的最强大的开放权重模型。
上个月,中国 AI 实验室 GLM 也发布了 GLM-5.1——一个开放权重、1.5TB 的怪物级模型!如果你负担得起运行它所需的硬件,这会是一个非常高效的模型……
GLM-5.1 给我画了这只相当能干的、骑自行车的鹈鹕。
……不过当我让它尝试把这幅图动起来时,自行车就被甩到了画面的顶部,而且车身也变形了。
Charles 在 Bluesky 上建议我试试让它画一只骑电动滑板车的北弗吉尼亚负鼠。
结果它真的做出来了!我在其他模型上试过这个,它们完全比不上。“从黄昏开始巡游联邦”这句简直完美。它还有动画版本。
4 月份另一个不错的中文开源权重模型来自 Qwen。Qwen3.6-35B-A3B 在我的笔记本电脑上画出的鹈鹕,比 Claude Opus 4.7 画得还好。这是一个 20.9GB 的开源权重模型,能在我的笔记本电脑上运行!
(我认为这主要说明,骑自行车的鹈鹕作为一个有用的基准测试,已经彻底超出了它的适用范围。)
这是去年 9 月那只 Claude Sonnet 4.5 鹈鹕,拿来作个对比。
所以,这就是过去六个月里的两个主要主题:编码代理真的变得非常好……而且那些可在笔记本电脑上运行的模型,虽然比前沿模型弱得多,但已经开始远远超出预期。
来源与参考
收录于 2026-05-20