ChatGPT Images 2.0 在图像生成测试中胜过 Gemini Nano Banana
ZDNET AI··作者 David Gewirtz
关键信息
在“海军上将照片重构”测试中,ChatGPT 保留了原始面部特征,而 Gemini 修改了面部细节;在彩色还原测试中,ChatGPT 因细节更清晰得分更高,但略显锐化过度。
资讯摘要
ZDNet 对 ChatGPT Images 2.0 和谷歌的 Gemini Nano Banana 进行了标准化图像生成测试的直接对比。ChatGPT 得分 97%,Nano Banana 得分 85%,尤其在包含文本和保持原图人物特征的任务中表现优异。在一项测试中,它正确保留了海军上将的脸部特征并生成了合适的制服细节,而 Gemini 则出现了笑容扭曲和胡须夸张的问题。
两者在黑白图像修复方面都表现良好,但在彩色历史照片还原中,ChatGPT 显示出更强的细节恢复能力。这次测试为当前主流 AI 图像生成工具的实际能力提供了实用参考。

资讯正文
我测试了ChatGPT Images 2.0与Gemini Nano Banana,看看哪个更好——这个模型胜出
上周,OpenAI发布了两项重大更新,功能令人惊叹。首先,公司推出了ChatGPT Images 2.0,它不仅具备基础图像生成能力,还能加入来自真实数据的文本和上下文信息。其次,公司发布了最新的前沿模型GPT-5.5,这是在GPT-5.4基础上性能更强、速度更快的升级版本。
在发布后,我通过一系列测试验证了ChatGPT Images 2.0的上下文感知能力,结果非常出色。但它的基础图像生成能力是否提升了?还是停留在原地,甚至变得更差?为了弄清这一点,我重新使用了平时常用的图像生成测试流程,并将新版的ChatGPT Images 2.0与谷歌的Gemini Nano Banana进行了对比。
去年12月,Nano Banana得分高达93%,而ChatGPT仅为74%。当时ChatGPT分数如此之低,主要是因为AI拒绝执行我们的流行文化测试任务。这一次,我不再拿新版本的ChatGPT Images 2.0与旧版Nano Banana的结果比较,而是完全重新运行Nano Banana的测试,同时进行新的ChatGPT Images 2.0测试。这样可以更准确地反映两者当前的实际表现。
简而言之:这次ChatGPT Images 2.0得分为97%,Gemini Nano Banana得分为85%。继续往下看最后一项测试的结果,你会看到一些奇怪又不酷的现象。
现在让我们深入测试内容。
测试1:海军上将照片重构
满分:15分
ChatGPT Images 2.0:14分
Gemini Nano Banana:12分
本测试包含三个关键要素:生成正确的背景(航空母舰甲板)、生成合适的服装,以及保留原始人物的脸部和身体特征。两款AI都在场景搭建方面表现合理。两个模型都生成了看似符合海军上将制服的服装,但在细节上出现了错误,混合了不同军衔元素并虚构了一些部分。因此每款AI在此处各扣1分。
另一方面,ChatGPT成功保留了原始脸部特征,而Gemini生成的版本则呈现出一个古怪的笑容。Gemini还修改了我的胡须,让我看起来比实际更浓密。因此Nano Banana在此处额外扣了2分。
测试2:修复黑白图像
满分:15分
ChatGPT Images 2.0:15分
Gemini Nano Banana:15分
延续海军主题,这张图里是我站在停靠在新泽西州黑根萨克的USS Ling号潜艇上。顺便一提,当年我可是浓密头发。向伯根县致敬!
另外,我测试了ChatGPT Plus与Gemini Pro,看看哪个更好——是否值得切换。
两款AI都很好地清理了这张图片,尽管这其实任何合格的图像编辑软件都能做到。你可以看到ChatGPT生成的图像细节略多一些,但也可以认为它锐化过度;而Nano Banana版本则稍微不够清晰。我不会因此扣分。
测试3:修复并上色黑白图像
满分:20分
ChatGPT Images 2.0:19分
Gemini Nano Banana:10分
这是上世纪70年代一辆新泽西州的老式应急车辆。我在父亲的照片收藏中找到了这张照片,小时候我还亲眼见过那辆真正的卡车。
ChatGPT很好地还原了图像,“RADIOLOGICAL DEFENSE”字样也正确地出现在车身上。不过,“DEFNSE”这个词在车尾出现了错误,让Images 2.0丢了一分。实际上那辆车当时是蓝色的,这个判断相当准确,虽然当时新泽西州法律不允许应急车辆使用蓝色灯光。由于原图没有地点信息,不能因此责怪ChatGPT。
另外,2026年最佳AI图像生成器:现在只有一个明确的赢家。
Nano Banana的颜色更鲜艳,但优点到此为止。AI没有参考依据来为这辆车着色,除了车身大部分是白色,Gemini却把那些白色区域变成了红色,因此丢了三分。Gemini还在车尾文字上出错,标记成了“FOIN LENN - C.OD.”。最严重的是,Nano Banana甚至把新泽西州的骄傲改成了纽约的,给车门加了原本不存在的文字标签,还虚构了一个黄铜水管接头放在画面前景。这些失误导致更多扣分。
测试4:创建一个标志
满分:15分
ChatGPT Images 2.0:15分
Gemini Nano Banana:15分
两款AI都完全通过了这项测试。标志设计合理,文字生成准确。ChatGPT版本看起来更像是专业工作室的作品,而Nano Banana生成的盾形轮廓则稍显不合适。另一方面,你能在Nano Banana的标志中看到NASA的航天器装配大楼,牢牢地将它和佛罗里达州的太空海岸联系在一起。
另外,如何从ChatGPT切换到Gemini
两项AI均未被扣分。
测试5:幻想图书管理员
满分:15分
ChatGPT Images 2.0:15分
Gemini Nano Banana:15分
这是一个开放性较强的测试,给予创作者极大的自由度。我喜欢两张图,但原因不同。这是第二次Nano Banana生成的画面光线更好、略显美观,但这种风格也带来了些许不真实感。
我提出异议的是图片右后方那块蓝色画布,它看起来像是背光的,更像是电脑屏幕而不是烛光照明的中世纪图书馆里能找到的东西。另外:我试了Personal Intelligence功能,结果准确(但令人不安)。两个AI都没有扣分。
测试6:一位老年人士的肖像照
可能得分:20分
ChatGPT Images 2.0:20分
Gemini Nano Banana:17分
有趣的是,上次我测试Nano Banana时表现不错,这次它却莫名其妙地把文字重复了一次,因此扣了分。另外:我还试了Google Photos的新AI增强工具——它能自动裁剪、重新打光并修复照片。除此之外,两个AI的表现都不错,人物看起来都很真实。我还是觉得好笑,谷歌的AI在收到“旗舰智能手机”这个提示时生成了一部iPhone。上一次也是这样。两位老人如要求一样都戴着眼镜。而且因为现在是2026年而非2024年,他们的手看起来真的像手。
测试7:学生的抓拍照
可能得分:20分
ChatGPT Images 2.0:19分
Gemini Nano Banana:17分
这有点奇怪。生成过程中,ChatGPT曾短暂显示了一句:“用户提到使用MacBook Pro,所以我将生成一张带有时尚银色笔记本电脑的图像,外观类似MacBook Pro。可以包含苹果风格的设计,但我会避免直接使用标志。”但最终还是出现了标志。另一方面,我扣了一分,因为那台笔记本电脑看起来几乎要从桌子边缘掉下来了。当然有人可能会那样用,但确实不太合理。另外:这个强大的Gemini设置让我的AI结果变得更个性化且更准确。至于Nano Banana,它又出现了文字重复的问题,这张图我也扣了相同的分数。我还不是很喜欢背景里的卧室场景。这不是扣分的理由,但如果我要实际使用这张图,我可能会要求AI去掉卧室。
我妻子注意到一个有趣的巧合:两张图中的学生都穿着灰色圆领套头衫,肩线下垂的设计。两个AI都没得到任何额外提示,只根据文本指令生成。
测试8:《回到未来》海报
可能得分:20分
ChatGPT Images 2.0:18分
Gemini Nano Banana:15分
情况变得复杂了。两个AI都绞尽脑汁试图满足我的请求。先说ChatGPT Images 2.0,在生成图像时它显示了这条信息:“用户要求生成一部假设的第四部《回到未来》电影海报。由于涉及受版权保护的角色,我无法复制任何官方海报艺术作品。但我可以生成一张原创的致敬风格图像,避免直接复制标志或 artwork。”就像前一个测试中出现的苹果标志一样,ChatGPT巧妙地绕过了限制并得出了结果。但这个结果太棒了!我把图像底部的文字放大了,让你能看清AI到底生成了什么。显然,OpenAI已经解决了图像文字生成的问题。另外:我用GPT-5.2-Codex快速找到了一个神秘bug和托管噩梦——速度惊人。顺便提一句,这部分正是过去导致ChatGPT图像生成被扣分的地方。
在之前的测试版本中,无论我怎么尝试,ChatGPT都不愿意生成《回到未来》的海报。于是我们转向了Nano Banana。Gemini则拒绝生成图像,理由是:“我可以帮您生成人物图像,但无法描绘某些公众人物。您想试试其他人吗?”
我只是把提示中的名字“Marty”去掉,换成“一个青少年男孩”,就得到了结果。虽然勉强可用,但并不理想。我因此扣了分——因为那个孩子看起来太普通了。
此外,两张图片背景中的建筑都让人联想到克莱斯勒大厦和帝国大厦,这两座都是纽约市的标志性建筑。但它们在1920年代并不存在:帝国大厦于1930年3月17日开始建造,令人惊讶的是,仅用一年零45天就在1931年5月1日完工;克莱斯勒大厦则始于1928年,于1930年竣工。
一年前,如果AI能生成类似1920年代纽约的样子,我们会觉得非常惊艳。但现在AI能力更强了,所以我给两个模型都扣了分,因为它们展示了当时根本不存在的建筑。两者本应更清楚这一点。
测试9:以《圣诞夜惊魂》风格呈现的IT人员
可能得分:15分
ChatGPT Images 2.0:15分
Gemini Nano Banana:15分
这一轮有点奇怪,不只是因为测试采用了蒂姆·伯顿的风格。我们先说清楚图像生成的问题。再次地,ChatGPT Images 2.0在生成我要求的图像之前,先输出了一段解释:“我会从结果中挑选最佳风格参考,但我必须小心避免使用过于受版权保护的内容。”对在场的律师来说,“过于受版权保护”到底是什么意思?
除此之外,两个AI都根据提示生成了合适的图像,并且获得了满分。主观而言,我更喜欢Nano Banana生成的那张图。但接下来这个细节值得注意:
请注意Gemini生成的文字里包含了Claude Code、iTerm2和Linux的标志,还有角落里的3D打印机。我一直在写关于Claude Code、iTerm2和Linux的文章,而且我的YouTube频道也专注于桌面制造、创客和3D打印。但我并没有要求Gemini加入对我其他工作的致敬。我只是简单地说要一个“数据中心里的IT专业人士”。它却从我的聊天记录中提取了Claude Code、iTerm2、Linux和3D打印机,并嵌入到了图像中。
如果我曾用Gemini讨论过私人健康问题或个人事务,这些信息会不会有一天出现在我生成的图像中?我是否需要逐个检查Gemini生成的每一张图片,确保它没有泄露任何个人信息?我没有专门针对“泄露隐私”的测试项目,但如果有的话,Gemini一定会得零分。这种输出实在太诡异了。我不喜欢,一点也不喜欢。
这可能只是AI为了取悦用户而过度努力,导致了令人不安的行为。但我几乎想建议大家避开Nano Banana,因为存在这种可能性。我已经联系谷歌寻求评论,等收到回复后会更新这篇文章。
顺便说一句,正是由于这类问题,我们才进行真实世界的实际测试,而不是仅仅依赖基准测试套件的结果。只有在真实使用中,我们才能发现一些奇怪的边缘情况,从而真正了解这些庞大的‘全知大脑’究竟会如何失控。
总体而言,在针对30个不同因素的测试中,ChatGPT Images 2.0得分为150分,Gemini Nano Banana得分为131分。换算成百分制,ChatGPT Images得分为97%,而Gemini Nano Banana为85%。这一结果相比去年Gemini此前93%的整体得分明显下降。
在看到Gemini Nano Banana从你的聊天记录中添加个人细节之后,你还愿意把它用于工作图像吗?欢迎在下方留言告诉我们。
你可以在社交媒体上关注我的日常项目更新。记得订阅我的每周更新通讯,同时在Twitter/X上关注我 @DavidGewirtz,在Facebook上关注 Facebook.com/DavidGewirtz,在Instagram上关注 Instagram.com/DavidGewirtz,在Bluesky上关注 @DavidGewirtz.com,以及在YouTube上关注 YouTube.com/DavidGewirtzTV。
来源与参考
收录于 2026-04-28