Qwen3.6-35B-A3B在画鹈鹕自行车图中击败Claude Opus 4.7

Simon Willison·4月17日 01:16 UTC·作者 Simon Willison

关键信息

测试使用的是在MacBook Pro M5上通过LM Studio运行的量化GGUF模型；Qwen正确描绘了自行车框架并包含云朵，而Opus即使启用更高思考层级也无法正确呈现自行车。

资讯摘要

西蒙·威尔森通过提示两个最新发布的大型语言模型——Qwen3.6-35B-A3B和Claude Opus 4.7——生成一只鹈鹕骑自行车的图像进行比较。他在M5 Mac笔记本电脑上使用量化后的GGUF文件本地运行这两个模型。Qwen的输出展示了正确的自行车形状、天空中的云朵和清晰的标题，而Opus则完全错误地渲染了自行车。

第二次尝试使用‘thinking_level: max’后，Opus仅略有改善。在后续关于火烈鸟骑独轮车的测试中，Qwen再次胜出，添加了墨镜和爱心表情等风格化细节，表明其更具创造性的连贯性。

Qwen3.6-35B-A3B在画鹈鹕自行车图中击败Claude Opus 4.7

资讯正文

对于那些（不智地）认真对待我这个‘鹈鹕骑自行车’基准测试的人来说，这里是我今天早上从两个重磅模型发布中得到的鹈鹕图像——来自阿里巴巴的Qwen3.6-35B-A3B和来自Anthropic的Claude Opus 4.7。

这是由Qwen 3.6生成的鹈鹕图像，使用的是Unsloth提供的量化模型文件：https://huggingface.co/unsloth/Qwen3.6-35B-A3B-GGUF/blob/main/Qwen3.6-35B-A3B-UD-Q4_K_S.gguf（大小为20.9GB），在搭载M5芯片的MacBook Pro上通过LM Studio运行（并使用了llm-lmstudio插件）——完整提示词见此处：https://gist.github.com/simonw/4389d355d8e162bc6e4547da214f7dd2。

而这是来自Anthropic最新发布的Claude Opus 4.7的图像（提示词见此处：https://gist.github.com/simonw/afcb19addf3f38eb1996e1ebe749c118）：

我更倾向于Qwen 3.6版本。Opus竟然把自行车框架都搞错了！

我又试了一次Opus，并传入了参数`thinking_level: max`，结果也没有明显改善（提示词见此处：https://gist.github.com/simonw/7566e04a81accfb9affda83451c0f363）：

我不认为Qwen在作弊

很多人坚信实验室专门针对我的这个愚蠢基准进行训练。我不确定他们是否真的这么做，但这次的结果确实让我产生了一丝怀疑。所以我决定启用一个秘密备份测试：以下是Qwen3.6-35B-A3B和Opus 4.7对‘生成一只火烈鸟骑独轮车的SVG图像’这一指令的响应：

我在笔记本上运行的Qwen3.6-35B-A3B画出的鹈鹕比Claude Opus 4.7更出色。

</figure>

</figure>

</div>

<p>我也会把这个任务交给Qwen，部分原因在于那个出色的SVG注释：<code></code>。</p>

<h4 id="what-can-we-learn-from-this-">我们能从中学到什么？</h4>

<p>鹈鹕测试本来就是个玩笑——它主要是对比较这些模型这项任务荒谬性和无意义性的讽刺。</p>

<p>这个笑话奇怪的地方在于，大多数情况下，所生成鹈鹕的质量和模型的整体实用性之间存在直接关联。那些<a href="https://simonwillison.net/2024/Oct/25/pelicans-on-a-bicycle/">2024年10月最早的鹈鹕图像</a>简直一塌糊涂。而最近的版本<a href="https://simonwillison.net/tags/pelican-riding-a-bicycle/">则明显好得多</a>，以至于Gemini 3.1 Pro甚至能生成<a href="https://simonwillison.net/2026/Feb/19/gemini-31-pro/">你可以实际用得上的插图</a>，只要你恰好需要一张鹈鹕骑独轮车的画面。</p>

<p>但现在，这种与实用性的松散联系也断裂了。我对Qwen非常尊重，但我极不可能相信一个21GB量化版的最新模型比Anthropic最新的专有版本更强大或更有用。</p>

<p>不过，如果你真的需要一张鹈鹕骑独轮车的SVG插图，现在在笔记本上运行的Qwen3.6-35B-A3B反而比Opus 4.7更靠谱！</p>

来源与参考

收录于 2026-04-17