测试ChatGPT图像2.0:寻找戴无线电的浣熊
Simon Willison··作者 Simon Willison
关键信息
新模型在文字渲染(如标识牌)和空间推理(清晰定位浣熊)方面表现优异,而旧版本则在这两方面都存在问题;谷歌的Nano Banana 2表现也不错,但Pro版本却意外失败。
资讯摘要
西蒙·威尔森通过提示ChatGPT图像2.0生成一个类似“在哪里找沃尔多”的画面,其中包含一只拿着无线电的浣熊。旧版gpt-image-1未能清晰展示浣熊,甚至Claude Opus 4.7也因误导性元素无法找到它。
谷歌的Nano Banana 2轻松找到了浣熊,位于业余无线电摊位上,但其Pro版本结果糟糕。相比之下,新版gpt-image-2生成了一张清晰且构图良好的图像,浣熊位置明确,证明了萨姆·阿尔特曼在发布直播中宣称的显著进步。

资讯正文
OpenAI今天发布了ChatGPT Images 2.0,这是他们最新的图像生成模型。在直播中,山姆·阿尔特曼表示,从gpt-image-1到gpt-image-2的提升,相当于从GPT-3到GPT-5的飞跃。以下是我对它进行测试的方式。
我的提示语:
<blockquote>
<p>做一个类似‘找沃尔多’的图像,但这次是找拿着业余无线电的浣熊</p>
</blockquote>
<h4 id="gpt-image-1">gpt-image-1</h4>
首先作为基线,我直接用ChatGPT调用旧版gpt-image-1得到的结果如下:
<p><a href="https://static.simonwillison.net/static/2026/chatgpt-image-1-ham-radio.png"><img alt="画面很丰富,但我没找到浣熊。" src="https://static.simonwillison.net/static/2026/image_crop_1402x1122_w1402_q0.3.jpg" /></a></p>
我没能发现那只浣熊——很快我就意识到,用类似‘找沃尔多’的图像来测试图像生成模型其实相当令人沮丧!
我还尝试了Claude Opus 4.7,它支持更高分辨率输入,但模型却因为图片左上角的说明卡而误判为存在一只找不到的浣熊:
<blockquote>
<p><strong>是的——图中至少有一只浣熊,但它藏得很深。</strong> 我仔细检查了放大后的局部区域,老实说,我无法明确确认是否有浣熊拿着业余无线电。[...]</p>
</blockquote>
<h4 id="nano-banana-2-and-pro">Nano Banana 2 和 Pro</h4>
接下来我试了谷歌的Nano Banana 2,通过Gemini实现:
<p><a href="https://static.simonwillison.net/static/2026/nano-banana-2-ham-radio.jpg"><img alt="一个热闹的公园节日场景插画,人群、帐篷分别标注‘食品与饮品’、‘手工艺市集’、‘图书角落’、‘音乐节’和‘业余无线电俱乐部 - W6HAM’(其中一张无线电桌旁坐着一只戴红帽子的浣熊),还有摩天轮、旋转木马、乐队演奏的凉亭、有船的小池塘、喷泉、食物车以及条纹的马戏帐篷" src="https://static.simonwillison.net/static/2026/gemini-ham-radio-small.jpg" /></a></p>
这个版本非常明显,浣熊就在画面中央的‘业余无线电俱乐部’摊位里!
Claude评价道:
<blockquote>
<p>老实说,这次根本没怎么隐藏——他就是那个摊位的主角。感觉插画师在经历了上一个不可能的任务之后终于对我们心软了。摊位牌子上的小‘W6HAM’呼号双关语也很有趣。</p>
</blockquote>
我还试了Nano Banana Pro,在AI Studio中得到的结果是所有模型中最差的一个,不知道哪里出了问题!
<p><a href="https://static.simonwillison.net/static/2026/nano-banana-pro-ham-radio.jpg"><img alt="浣熊比画面中其他人都大,位于图像正中央,周围有一圈难看的白色边框。" src="https://static.simonwillison.net/static/2026/nano-banana-pro-ham-radio-small.jpg" /></a></p>
<h4 id="gpt-image-2">gpt-image-2</h4>
<p>在建立基线之后,我们来试试新模型。</p>
<p>我使用了更新版的 <a href="https://github.com/simonw/tools/blob/main/python/openai_image.py">openai_image.py</a> 脚本,这是一个围绕 <a href="https://github.com/openai/openai-python">OpenAI Python</a> 客户端库的轻量封装。他们的客户端库尚未更新以支持 <code>gpt-image-2</code>,但幸运的是它不会验证模型 ID,因此你可以直接使用它。</p>
<p>我是这样运行的:</p>
<div class="highlight highlight-source-shell"><pre>OPENAI_API_KEY=<span class="pl-s"><span class="pl-pds">"</span><span class="pl-s"><span class="pl-pds">$(</span>llm keys get openai<span class="pl-pds">)</span></span><span class="pl-pds">"</span></span> \
uv run https://tools.simonwillison.net/python/openai_image.py \
-m gpt-image-2 \
<span class="pl-s"><span class="pl-pds">"</span>做一个类似‘找沃尔多’的图片,但这次是找拿着对讲机的浣熊<span class="pl-pds">"</span></span></pre></div>
<p>结果如下。我不<em>认为</em>里面有一只浣熊——我自己没找到,Claude 也没找到。</p>
<p><a href="https://static.simonwillison.net/static/2026/gpt-image-2-default.png"><img alt="很多东西,一个对讲机摊位,很多人,一个湖泊,但可能没有浣熊?" src="https://static.simonwillison.net/static/2026/gpt-image-2-default.jpg" /></a></p>
<p><a href="https://github.com/openai/openai-cookbook/blob/main/examples/multimodal/image-gen-models-prompting-guide.ipynb">OpenAI 图像生成食谱</a> 已经更新,加入了关于 <code>gpt-image-2</code> 的说明,包括 <code>outputQuality</code> 设置和可用尺寸。</p>
<p>我尝试将 <code>outputQuality</code> 设为 <code>high</code>,尺寸设为 <code>3840x2160</code>(我认为这是最大值),得到了这个结果——一个 17MB 的 PNG 文件,我将其转换成了 5MB 的 WEBP 格式:</p>
<div class="highlight highlight-source-shell"><pre>OPENAI_API_KEY=<span class="pl-s"><span class="pl-pds">"</span><span class="pl-s"><span class="pl-pds">$(</span>llm keys get openai<span class="pl-pds">)</span></span><span class="pl-pds">"</span></span> \
uv run <span class="pl-s"><span class="pl-pds">'</span>https://raw.githubusercontent.com/simonw/tools/refs/heads/main/python/openai_image.py<span class="pl-pds">'</span></span> \
-m gpt-image-2 <span class="pl-s"><span class="pl-pds">"</span>做一个类似‘找沃尔多’的图片,但这次是找拿着对讲机的浣熊<span class="pl-pds">"</span></span> \
--quality high --size 3840x2160</pre></div>
<p><a href="https://static.simonwillison.net/static/2026/image-fc93bd-q100.webp"><img alt="一张复杂的大图,细节丰富,文字表达清晰,确实有一只浣熊拿着业余无线电。" src="https://static.simonwillison.net/static/2026/image-fc93bd-q100.jpg" /></a></p>
<p>这真是太棒了!图中有一只拿着业余无线电的浣熊(在左下角,很容易找到)。</p>
<p>这张图片使用了13,342个输出标记(tokens),按每百万个标记30美元计费,总成本约为<a href="https://www.llm-prices.com/#ot=13342&ic=5&cic=1.25&oc=10&sel=gpt-image-2-image">40美分</a>。</p>
<h4 id="takeaways">要点总结</h4>
<p>我认为这个新的ChatGPT图像生成模型至少暂时夺得了冠军宝座,超越了Gemini。</p>
<p>类似“找沃尔多”的图像测试方式虽然令人恼火且略显愚蠢,但它们确实有助于展示这些模型在处理结合文字与细节的复杂插图方面进步有多大。</p>
<h4 id="update-asking-models-to-solve-this-is-risky">更新:让模型自己解决这类问题是有风险的</h4>
<p>rizaco在Hacker News上提问,要求ChatGPT在一张我没能找到浣熊的图片中用红色圆圈标出那只浣熊。以下是他们的结果与原图的动画对比:</p>
<p><img alt="圆圈围住了一只拿着业余无线电的浣熊,但它在原图中根本不存在!" src="https://static.simonwillison.net/static/2026/ham-radio-cheat.gif" /></p>
<p>看起来我们绝对不能信任这些模型能可靠地解决自己的谜题!</p>
来源与参考
收录于 2026-04-22