测试ChatGPT图像2.0：寻找戴无线电的浣熊

Simon Willison·4月22日 04:32 UTC·作者 Simon Willison

关键信息

新模型在文字渲染（如标识牌）和空间推理（清晰定位浣熊）方面表现优异，而旧版本则在这两方面都存在问题；谷歌的Nano Banana 2表现也不错，但Pro版本却意外失败。

资讯摘要

西蒙·威尔森通过提示ChatGPT图像2.0生成一个类似“在哪里找沃尔多”的画面，其中包含一只拿着无线电的浣熊。旧版gpt-image-1未能清晰展示浣熊，甚至Claude Opus 4.7也因误导性元素无法找到它。

谷歌的Nano Banana 2轻松找到了浣熊，位于业余无线电摊位上，但其Pro版本结果糟糕。相比之下，新版gpt-image-2生成了一张清晰且构图良好的图像，浣熊位置明确，证明了萨姆·阿尔特曼在发布直播中宣称的显著进步。

资讯正文

OpenAI今天发布了ChatGPT Images 2.0，这是他们最新的图像生成模型。在直播中，山姆·阿尔特曼表示，从gpt-image-1到gpt-image-2的提升，相当于从GPT-3到GPT-5的飞跃。以下是我对它进行测试的方式。

我的提示语：

做一个类似‘找沃尔多’的图像，但这次是找拿着业余无线电的浣熊

</blockquote>

<h4 id="gpt-image-1">gpt-image-1</h4>

首先作为基线，我直接用ChatGPT调用旧版gpt-image-1得到的结果如下：

我没能发现那只浣熊——很快我就意识到，用类似‘找沃尔多’的图像来测试图像生成模型其实相当令人沮丧！

我还尝试了Claude Opus 4.7，它支持更高分辨率输入，但模型却因为图片左上角的说明卡而误判为存在一只找不到的浣熊：

是的——图中至少有一只浣熊，但它藏得很深。 我仔细检查了放大后的局部区域，老实说，我无法明确确认是否有浣熊拿着业余无线电。[...]

</blockquote>

<h4 id="nano-banana-2-and-pro">Nano Banana 2 和 Pro</h4>

接下来我试了谷歌的Nano Banana 2，通过Gemini实现：

这个版本非常明显，浣熊就在画面中央的‘业余无线电俱乐部’摊位里！

Claude评价道：

老实说，这次根本没怎么隐藏——他就是那个摊位的主角。感觉插画师在经历了上一个不可能的任务之后终于对我们心软了。摊位牌子上的小‘W6HAM’呼号双关语也很有趣。

</blockquote>

我还试了Nano Banana Pro，在AI Studio中得到的结果是所有模型中最差的一个，不知道哪里出了问题！

<h4 id="gpt-image-2">gpt-image-2</h4>

在建立基线之后，我们来试试新模型。

我使用了更新版的 <a href="https://github.com/simonw/tools/blob/main/python/openai_image.py">openai_image.py</a> 脚本，这是一个围绕 <a href="https://github.com/openai/openai-python">OpenAI Python</a> 客户端库的轻量封装。他们的客户端库尚未更新以支持 <code>gpt-image-2</code>，但幸运的是它不会验证模型 ID，因此你可以直接使用它。

我是这样运行的：

<div class="highlight highlight-source-shell"><pre>OPENAI_API_KEY="$(llm keys get openai)" \

uv run https://tools.simonwillison.net/python/openai_image.py \

-m gpt-image-2 \

"做一个类似‘找沃尔多’的图片，但这次是找拿着对讲机的浣熊"</pre></div>

结果如下。我不认为里面有一只浣熊——我自己没找到，Claude 也没找到。

<a href="https://github.com/openai/openai-cookbook/blob/main/examples/multimodal/image-gen-models-prompting-guide.ipynb">OpenAI 图像生成食谱</a> 已经更新，加入了关于 <code>gpt-image-2</code> 的说明，包括 <code>outputQuality</code> 设置和可用尺寸。

我尝试将 <code>outputQuality</code> 设为 <code>high</code>，尺寸设为 <code>3840x2160</code>（我认为这是最大值），得到了这个结果——一个 17MB 的 PNG 文件，我将其转换成了 5MB 的 WEBP 格式：

uv run 'https://raw.githubusercontent.com/simonw/tools/refs/heads/main/python/openai_image.py' \

-m gpt-image-2 "做一个类似‘找沃尔多’的图片，但这次是找拿着对讲机的浣熊" \

--quality high --size 3840x2160</pre></div>

这真是太棒了！图中有一只拿着业余无线电的浣熊（在左下角，很容易找到）。

这张图片使用了13,342个输出标记（tokens），按每百万个标记30美元计费，总成本约为<a href="https://www.llm-prices.com/#ot=13342&ic=5&cic=1.25&oc=10&sel=gpt-image-2-image">40美分</a>。

我认为这个新的ChatGPT图像生成模型至少暂时夺得了冠军宝座，超越了Gemini。

类似“找沃尔多”的图像测试方式虽然令人恼火且略显愚蠢，但它们确实有助于展示这些模型在处理结合文字与细节的复杂插图方面进步有多大。

<h4 id="update-asking-models-to-solve-this-is-risky">更新：让模型自己解决这类问题是有风险的</h4>

rizaco在Hacker News上提问，要求ChatGPT在一张我没能找到浣熊的图片中用红色圆圈标出那只浣熊。以下是他们的结果与原图的动画对比：

看起来我们绝对不能信任这些模型能可靠地解决自己的谜题！

来源与参考

收录于 2026-04-22