ChatGPT 图像 2.0 模型在图像中生成真实文本方面表现优异

TechCrunch AI·4月22日 03:00 UTC·作者 Amanda Silberling

关键信息

该模型支持最高 2K 分辨率，能准确渲染小字体和 UI 元素，并能从一个提示生成多个版本；同时还能理解日语、韩语、印地语和孟加拉语等非拉丁文字。

资讯摘要

ChatGPT 新版图像模型 Images 2.0 在 AI 图像生成领域迈出重大一步，解决了长期以来图像内文字渲染不真实的问题。与过去常出现拼写错误（如用‘enchuita’代替‘enchilada’）的旧模型不同，新模型现在可以生成功能完整的菜单、海报和漫画，文字正确且排版合理。OpenAI 将此改进归因于增强的‘思考能力’，使模型能够联网搜索、验证输出并遵循复杂指令。

它还支持多面板漫画和图标、细微风格约束等高保真细节。该模型将于本周二对所有 ChatGPT 用户开放，付费用户可通过 gpt-image-2 API 使用高级功能。

资讯正文

ChatGPT的新版Images 2.0模型在生成文本方面表现得令人惊喜。

过去，区分人类创作和AI生成的图像很容易——两年前，你无法用图像模型为一家墨西哥餐厅制作菜单，而不会创造出像“enchuita”、“churiros”、“burrto”和“margartas”这样的全新美食。

现在，当我要求全新的ChatGPT Images 2.0模型生成一份墨西哥菜菜单时，它创造的内容可以直接用于餐厅，顾客几乎察觉不到哪里不对劲。（不过，一份13.5美元的酸橘汁腌鱼可能会让我怀疑鱼的质量。）

作为对比，这是两年前我从DALL-E 3得到的结果（当时ChatGPT还不能生成图像）。

AI图像生成器长期以来一直难以正确拼写，因为它们通常使用扩散模型，这些模型通过从噪声中重建图像来工作。

Lesan AI创始人兼CEO阿斯梅拉什·特卡·哈杜格（Asmelash Teka Hadgu）在2024年告诉TechCrunch：“扩散模型……是在重建给定输入。我们可以假设图像上的文字只是非常微小的一部分，因此图像生成器学习的是覆盖更多像素的模式。”

研究人员随后探索了其他图像生成机制，比如自回归模型，这种模型会预测图像应该是什么样子，功能上更接近大型语言模型（LLM）。

不幸的是，OpenAI本周在新闻发布会上拒绝回答有关ChatGPT Images 2.0所使用的模型类型的问题。

不过，该公司解释称，新模型具备“思考能力”，这使它能够搜索网络、从一个提示生成多张图片，并验证自己的创作——这让Images 2.0可以创建多种尺寸的营销素材，以及多面板漫画。

OpenAI还表示，该模型对日语、韩语、印地语和孟加拉语等非拉丁文文本的渲染理解更强。该模型的知识截止到2025年12月，这可能会影响它生成涉及近期新闻提示的准确性。

OpenAI在一份声明中表示：“Images 2.0为图像创作带来了前所未有的精确度和保真度。它不仅能构思更复杂的图像，还能有效地将这一愿景变为现实，能够遵循指令、保留所需细节，并呈现那些常导致图像模型失效的精细元素：小字体、图标、UI元素、密集构图以及微妙的风格限制，最高分辨率可达2K。”

这些能力意味着图像生成不像向ChatGPT输入问题那样快速，但生成像多面板漫画这样复杂的内容仍然只需几分钟。

所有 ChatGPT 和 Codex 用户将从周二开始能够访问 Images 2.0 模型；付费用户则可以生成更高级的输出。该公司还将提供 gpt-image-2 API，其定价取决于输出内容的质量和分辨率。

来源与参考

收录于 2026-04-22