Qwen3.6-35B-A3B在画鹈鹕自行车图中击败Claude Opus 4.7

Simon Willison··作者 Simon Willison

关键信息

测试使用的是在MacBook Pro M5上通过LM Studio运行的量化GGUF模型;Qwen正确描绘了自行车框架并包含云朵,而Opus即使启用更高思考层级也无法正确呈现自行车。

资讯摘要

西蒙·威尔森通过提示两个最新发布的大型语言模型——Qwen3.6-35B-A3B和Claude Opus 4.7——生成一只鹈鹕骑自行车的图像进行比较。他在M5 Mac笔记本电脑上使用量化后的GGUF文件本地运行这两个模型。Qwen的输出展示了正确的自行车形状、天空中的云朵和清晰的标题,而Opus则完全错误地渲染了自行车。

第二次尝试使用‘thinking_level: max’后,Opus仅略有改善。在后续关于火烈鸟骑独轮车的测试中,Qwen再次胜出,添加了墨镜和爱心表情等风格化细节,表明其更具创造性的连贯性。

Qwen3.6-35B-A3B在画鹈鹕自行车图中击败Claude Opus 4.7

资讯正文

对于那些(不智地)认真对待我这个‘鹈鹕骑自行车’基准测试的人来说,这里是我今天早上从两个重磅模型发布中得到的鹈鹕图像——来自阿里巴巴的Qwen3.6-35B-A3B和来自Anthropic的Claude Opus 4.7。

这是由Qwen 3.6生成的鹈鹕图像,使用的是Unsloth提供的量化模型文件:https://huggingface.co/unsloth/Qwen3.6-35B-A3B-GGUF/blob/main/Qwen3.6-35B-A3B-UD-Q4_K_S.gguf(大小为20.9GB),在搭载M5芯片的MacBook Pro上通过LM Studio运行(并使用了llm-lmstudio插件)——完整提示词见此处:https://gist.github.com/simonw/4389d355d8e162bc6e4547da214f7dd2。

<img alt="自行车框架形状正确。天空中有云。鹈鹕的喉囊看起来有点傻气。地面有一行字:鹈鹕骑自行车!" src="https://static.simonwillison.net/static/2026/Qwen3.6-35B-A3B-UD-Q4_K_S-pelican.png" />

而这是来自Anthropic最新发布的Claude Opus 4.7的图像(提示词见此处:https://gist.github.com/simonw/afcb19addf3f38eb1996e1ebe749c118):

<img alt="自行车框架完全形状错误。没有云,只有一个黄色太阳。鹈鹕正回头看向自己,且喉囊不如我希望的那样明显。" src="https://static.simonwillison.net/static/2026/opus-4.7-pelican.png" />

我更倾向于Qwen 3.6版本。Opus竟然把自行车框架都搞错了!

我又试了一次Opus,并传入了参数`thinking_level: max`,结果也没有明显改善(提示词见此处:https://gist.github.com/simonw/7566e04a81accfb9affda83451c0f363):

<img alt="自行车框架虽然还是错的,但方式不同了。线条更粗犷一些。鹈鹕的样子也稍微像一点了。" src="https://static.simonwillison.net/static/2026/opus-4.7-pelican-max.png" />

我不认为Qwen在作弊

很多人坚信实验室专门针对我的这个愚蠢基准进行训练。我不确定他们是否真的这么做,但这次的结果确实让我产生了一丝怀疑。所以我决定启用一个秘密备份测试:以下是Qwen3.6-35B-A3B和Opus 4.7对‘生成一只火烈鸟骑独轮车的SVG图像’这一指令的响应:

我在笔记本上运行的Qwen3.6-35B-A3B画出的鹈鹕比Claude Opus 4.7更出色。

<img alt="独轮车的辐条太长了。鹈鹕戴着太阳镜、系着领结,看起来像是在抽香烟。它周围有两个心形表情符号,标题是‘骑在独轮车上的火烈鸟’。它很有魅力。' src="https://static.simonwillison.net/static/2026/qwen-flamingo.png" style="height: auto;" />

</figure>

<figure style="text-align: center; margin: 0;">

<figcaption style="margin-bottom: 1em;">Opus 4.7<br />(<a href="https://gist.github.com/simonw/35121ad5dcf23bf860397a103ae88d50">转录文本</a>)</figcaption>

<img alt="独轮车有一个黑色车轮。火烈鸟是一幅技术合格但略显平淡的矢量插图,毫无特色。" src="https://static.simonwillison.net/static/2026/opus-flamingo.png" style="height: auto;" />

</figure>

</div>

<p>我也会把这个任务交给Qwen,部分原因在于那个出色的SVG注释:<code>&lt;!-- 火烈鸟戴着眼镜! --&gt;</code>。</p>

<h4 id="what-can-we-learn-from-this-">我们能从中学到什么?</h4>

<p>鹈鹕测试本来就是个玩笑——它主要是对比较这些模型这项任务荒谬性和无意义性的讽刺。</p>

<p>这个笑话奇怪的地方在于,大多数情况下,所生成鹈鹕的质量和模型的整体实用性之间存在直接关联。那些<a href="https://simonwillison.net/2024/Oct/25/pelicans-on-a-bicycle/">2024年10月最早的鹈鹕图像</a>简直一塌糊涂。而最近的版本<a href="https://simonwillison.net/tags/pelican-riding-a-bicycle/">则明显好得多</a>,以至于Gemini 3.1 Pro甚至能生成<a href="https://simonwillison.net/2026/Feb/19/gemini-31-pro/">你可以实际用得上的插图</a>,只要你恰好需要一张鹈鹕骑独轮车的画面。</p>

<p>但现在,这种与实用性的松散联系也断裂了。我对Qwen非常尊重,但我极不可能相信一个21GB量化版的最新模型比Anthropic最新的专有版本更强大或更有用。</p>

<p>不过,如果你真的需要一张鹈鹕骑独轮车的SVG插图,现在在笔记本上运行的Qwen3.6-35B-A3B反而比Opus 4.7更靠谱!</p>

来源与参考

  1. 原始链接
  2. Qwen3.6-35B-A3B on my laptop drew me a better pelican than Claude Opus 4.7

收录于 2026-04-17