ChatGPT 图像 2.0 模型在图像中生成真实文本方面表现优异

TechCrunch AI··作者 Amanda Silberling

关键信息

该模型支持最高 2K 分辨率,能准确渲染小字体和 UI 元素,并能从一个提示生成多个版本;同时还能理解日语、韩语、印地语和孟加拉语等非拉丁文字。

资讯摘要

ChatGPT 新版图像模型 Images 2.0 在 AI 图像生成领域迈出重大一步,解决了长期以来图像内文字渲染不真实的问题。与过去常出现拼写错误(如用‘enchuita’代替‘enchilada’)的旧模型不同,新模型现在可以生成功能完整的菜单、海报和漫画,文字正确且排版合理。OpenAI 将此改进归因于增强的‘思考能力’,使模型能够联网搜索、验证输出并遵循复杂指令。

它还支持多面板漫画和图标、细微风格约束等高保真细节。该模型将于本周二对所有 ChatGPT 用户开放,付费用户可通过 gpt-image-2 API 使用高级功能。

ChatGPT 图像 2.0 模型在图像中生成真实文本方面表现优异

资讯正文

ChatGPT的新版Images 2.0模型在生成文本方面表现得令人惊喜。

过去,区分人类创作和AI生成的图像很容易——两年前,你无法用图像模型为一家墨西哥餐厅制作菜单,而不会创造出像“enchuita”、“churiros”、“burrto”和“margartas”这样的全新美食。

现在,当我要求全新的ChatGPT Images 2.0模型生成一份墨西哥菜菜单时,它创造的内容可以直接用于餐厅,顾客几乎察觉不到哪里不对劲。(不过,一份13.5美元的酸橘汁腌鱼可能会让我怀疑鱼的质量。)

作为对比,这是两年前我从DALL-E 3得到的结果(当时ChatGPT还不能生成图像)。

AI图像生成器长期以来一直难以正确拼写,因为它们通常使用扩散模型,这些模型通过从噪声中重建图像来工作。

Lesan AI创始人兼CEO阿斯梅拉什·特卡·哈杜格(Asmelash Teka Hadgu)在2024年告诉TechCrunch:“扩散模型……是在重建给定输入。我们可以假设图像上的文字只是非常微小的一部分,因此图像生成器学习的是覆盖更多像素的模式。”

研究人员随后探索了其他图像生成机制,比如自回归模型,这种模型会预测图像应该是什么样子,功能上更接近大型语言模型(LLM)。

不幸的是,OpenAI本周在新闻发布会上拒绝回答有关ChatGPT Images 2.0所使用的模型类型的问题。

不过,该公司解释称,新模型具备“思考能力”,这使它能够搜索网络、从一个提示生成多张图片,并验证自己的创作——这让Images 2.0可以创建多种尺寸的营销素材,以及多面板漫画。

OpenAI还表示,该模型对日语、韩语、印地语和孟加拉语等非拉丁文文本的渲染理解更强。该模型的知识截止到2025年12月,这可能会影响它生成涉及近期新闻提示的准确性。

OpenAI在一份声明中表示:“Images 2.0为图像创作带来了前所未有的精确度和保真度。它不仅能构思更复杂的图像,还能有效地将这一愿景变为现实,能够遵循指令、保留所需细节,并呈现那些常导致图像模型失效的精细元素:小字体、图标、UI元素、密集构图以及微妙的风格限制,最高分辨率可达2K。”

这些能力意味着图像生成不像向ChatGPT输入问题那样快速,但生成像多面板漫画这样复杂的内容仍然只需几分钟。

所有 ChatGPT 和 Codex 用户将从周二开始能够访问 Images 2.0 模型;付费用户则可以生成更高级的输出。该公司还将提供 gpt-image-2 API,其定价取决于输出内容的质量和分辨率。

来源与参考

  1. 原始链接
  2. ChatGPT's new Images 2.0 model is surprisingly good at generating text | TechCrunch

收录于 2026-04-22