ChatGPT 图像2.0引入推理与网络搜索,实现更智能的图像生成

The Decoder··作者 Matthias Bastian

关键信息

该模型支持从 3:1(超宽)到 1:3(超长)的纵横比,API 分辨率最高可达 2K;定价按 token 计费——每百万输入 token 8 美元,每百万输出 token 30 美元,费用随质量和分辨率变化。

资讯摘要

OpenAI 推出了由 GPT Image 2 模型驱动的 ChatGPT 图像 2.0,可在生成图像前进行推理甚至联网搜索,从而实现更高精度和一致性——例如从一个提示生成多达八张相关图像,并更好地处理小文字、图标和复杂构图等细节。思考模式仅对 ChatGPT Plus、Pro 和企业用户开放,但所有用户都能享受整体图像质量的提升。

该模型还支持高分辨率输出和多种纵横比,适用于设计、教育和营销等多种场景。定价透明且按 token 计算,基础分辨率选项成本较低。

ChatGPT 图像2.0引入推理与网络搜索,实现更智能的图像生成

资讯正文

ChatGPT Images 2.0 是一次突破,可能从根本上重塑图像生成方式

OpenAI 正在为其 ChatGPT Images 2.0 图像生成器加入推理和网络搜索功能。该模型现在可以从一个提示一次性生成多达八张保持一致性的图像,并且对文本的处理能力显著提升,尤其是在非拉丁文字脚本方面。

更新:

OpenAI 的新图像模型已正式发布。ChatGPT Images 2.0 基于全新的 GPT Image 2 模型运行,其核心能力与 Google 的 Nano Banana Pro 相同:模型在生成图像前会进行“思考”,根据所选模式花费不同时间进行推理,甚至可以在这一过程中联网搜索。

根据公司博客文章所述,这将使生成的图像更具多样性与准确性。带有推理过程的扩展输出仅对 ChatGPT Plus、Pro 和 Business 用户开放。

开启推理模式后,ChatGPT Images 2.0 可以从单一提示一次性生成多达八张图像,角色、物体和风格在所有场景中应保持一致。OpenAI 列举了多个使用案例,例如:仅凭一张图片和一段文字提示生成长达一页的漫画、一系列社交媒体图形,以及一套房屋内不同房间的设计方案。

所有用户都能获得更好的图像质量

无论是否启用推理模式,所有 ChatGPT 用户都将受益于图像质量的提升。OpenAI 表示,该生成器现在能更好地捕捉照片的“典型特征”,并在像素艺术、漫画、电影剧照等各类图像类型上实现改进。此外,该模型还专门优化了此前图像模型长期难以处理的细节元素:小号文字、图标、界面元素、密集构图以及微妙的风格指令。

图像比例支持范围从 3:1(超宽)到 1:3(超长),覆盖横幅、演示文稿幻灯片到移动屏幕等多种格式。通过 API,分辨率最高可达 2K。

API 计费按 token 计算,与质量挂钩

开发者可以通过名为 gpt-image-2 的 API 将该模型集成到自己的产品中。OpenAI 按 token 收费:每百万张输入图像 token 收费 8 美元,每百万张输出图像 token 收费 30 美元;文本 token 输入为每百万 5 美元,输出为每百万 10 美元。缓存的输入内容价格更低。

OpenAI 强调,本地化广告、信息图表、教育内容、设计工具和创意平台是主要目标应用场景。在 Codex 中,图像生成将直接嵌入工作区,无需单独申请 API 密钥。

在我们自己的基准测试提示中,ChatGPT Image 2 表现优异。无论是即时模式还是推理模式,都能很好地处理复杂且抽象的提示,并展现出极强的细节关注能力。

一张超现实的单反相机照片。一只猴子坐在老虎身上,手里拿着一根粉红色的香蕉。背景中,一匹马正在骑着一名宇航员。宇航员像一件活体‘太空服马鞍’一样位于下方,而马显然处于上方,掌控着整个局面。必须100%明确:马是骑手,宇航员是被骑者,而不是相反。高分辨率、锐利对焦、真实的光影效果。

即时模式的输出略显人工感,而思考模式则更精准地呈现了单反相机级别的视觉效果。

OpenAI的新版ChatGPT图像模型即将面世。代号为“gpt-image-2”,该模型已提供给部分ChatGPT测试用户,并出现在排行榜上。近期生成的图像几乎与真实照片难以区分,已在X平台和Reddit上出现。目前来看,访问权限似乎仅限于美国或拥有美国账户的测试者。

据报道,该模型在处理复杂图像和含文字的图表方面能力更强,包括细节丰富的截图;非常适合广告和教育场景,例如信息图制作,其中文字渲染的准确性至关重要。

此外,该模型还修复了以往常见的“AI风格”问题——即皮肤过于光滑、光线完美到不自然的问题,这在GPT-image 1.5版本中仍存在,当时谷歌的Nano Banana Pro仍有明显优势。OpenAI将在今晚的直播中正式发布该模型,直播将于太平洋时间中午12点开始。

来源与参考

  1. 原始链接
  2. ChatGPT Images 2.0 is a breakthrough that could fundamentally reshape graphic generation

收录于 2026-04-22