微软研究证明详细字幕比规模更重要

The Decoder·6月9日 01:57 UTC·作者 Jonathan Kemper

关键信息

Lens-800M 数据集包含 8 亿对图文数据，字幕由 GPT-4.1 生成，平均大约 100 个词，微软在消融实验中表示，长字幕明显优于短字幕或混合字幕。该模型还能泛化到未见过的分辨率和长宽比，最高约可到 200 万像素；它使用 GPT-OSS 作为文本编码器，并有一个蒸馏版 Lens-Turbo，可在四步内、不到一秒生成图像。

资讯摘要

微软研究院发布了 Lens，这是一款文生图模型，目标是在训练算力远低于大型竞品的情况下依然保持竞争力。根据技术报告，Lens 的预训练算力大约只有 Z-Image 这类可比模型的五分之一，但在多个基准上却能击败许多参数规模大得多的系统。文章还举例对比了 Hunyuan-Image-3.0，它大约有 800 亿参数，而 Lens 只有 38 亿参数。微软认为，这种效率并不是单靠模型变小获得的，而是来自更高质量的训练信号和更合理的架构设计。其核心做法之一是 Lens-800M 数据集，包含 8 亿对图文数据，字幕由 GPT-4.1 生成，平均长度约 100 个词。微软表示，消融实验显示，这些长字幕比短字幕或混合字幕效果明显更好，因为网页上抓取的 alt-text 往往很模糊，甚至是错误的。

团队还在每个训练批次中混合不同分辨率和长宽比，这让模型可以泛化到未见过的格式，并支持最高约 200 万像素的图像，而无需昂贵的高分辨率训练。架构方面，微软测试了多种变分自编码器，最终发现 FLUX.2 的语义 VAE 在文生图训练和收敛速度上表现最好。模型还使用 GPT-OSS 作为文本编码器，微软指出，更强的语言编码器可以提升训练速度、提示词忠实度，并让模型在只用英文图文对训练的情况下仍能接受中文、法语、日语或西班牙语提示。预训练之后，Lens 还会进入强化学习阶段，使用名为 Lens-RL-8K 的自定义提示集，微软称提示多样性比单纯增加数量更重要。面向用户生成时，系统会先放一个 reasoner，把模糊输入改写成更详细的提示，默认使用 GPT-5.5，也可以用不占额外显存的 GPT-OSS。最后，微软还推出了蒸馏版 Lens-Turbo，它只需四步即可生成图像，在 H100 GPU 上生成一张 1 兆像素图片的时间不到一秒，而标准版大约需要三秒。

资讯正文

微软研究院的 Lens 证明，在训练高效图像生成器时，细致的图像说明比单纯扩大规模更重要

在微软的 MAI 团队凭借加料版图像模型抢占聚光灯的同时，微软研究院正在证明：借助详细的图像说明和巧妙的架构选择，即使计算资源有限，也能走得很远。

微软研究院正在推出 Lens，这是一款文生图模型，旨在以远少于竞品的训练计算量与更大的对手竞争。根据技术报告，Lens 进行预训练所需的计算量大约只有 Z-Image 等可比模型的五分之一。它在多项基准上击败了许多体量数倍于它的模型。比如，Hunyuan-Image-3.0 大约有 800 亿个参数，而 Lens 只有 38 亿个。

丰富的图像说明比原始数据量更重要

研究人员认为，这种效率提升来自更紧凑的模型、更高的每步训练信息利用率，以及以更少轮次收敛的训练流程。Lens-800M 数据集位于这一方法的核心：它包含 8 亿组图文对，说明文字由 GPT-4.1 生成。平均每条说明大约 100 个词，远比从网页抓取的标准替代文本更详细。

微软表示，消融研究显示，使用这些长说明进行训练，效果明显优于使用短说明或混合说明。网页 alt-text 往往含糊不清，甚至完全错误，这会削弱学习信号。

团队还在每个训练批次中混合不同分辨率和宽高比——从竖幅到横幅。研究人员称，尽管模型是在一组固定图像尺寸上训练的，但它对未见过的格式和最高约 200 万像素的分辨率也能很好泛化。这节省了在高分辨率数据上进行昂贵训练的成本。

在架构方面，团队测试了变分自编码器的若干变体，它们负责在像素与压缩后的图像空间之间进行转换。微软没有只依赖标准重建指标，而是直接在文生图训练中测试候选方案。来自 FLUX.2 的语义 VAE 表现最佳，同时也加快了收敛速度。

文本编码器采用的是 GPT-OSS，这是 OpenAI 开放提供的一款语言模型。根据消融实验，更强的语言编码器带来两项好处：模型学习更快，并且能够处理它从未训练过的语言输入。Lens 只使用英文图文对进行训练，但它可以接受中文、法语、日语或西班牙语提示词。更强的语言编码器也提升了提示词遵循度。

一个推理器会改写含糊的用户提示词

在预训练之后，模型会进入强化学习阶段，使用一套名为 Lens-RL-8K 的自定义提示集。该提示集涵盖十个类别，包括人物、动物、场景、食物、虚构世界和 UI 设计。GPT-4.1 会为每个提示词生成匹配的评估标准，而一个更小的 GPT-4.1-mini 则充当奖励模型。

消融结果显示，缩小 RL 集合，或移除像文本密集型提示词这样的类别，都会削弱相关领域的表现。RL 提示词的多样性比单纯追求数量更重要。

微软在真正的图像模型前放置了一个推理器。它会把模糊的用户输入改写成更详细的提示词。默认使用的是 GPT-5.5，但作为文本编码器已经在用的 GPT-OSS 也可以胜任，而且不需要额外内存。

微软还描述了一种方法，可以在不进行任何额外训练的情况下，迭代改进推理器的系统提示词。研究人员表示，这一策略在更大得多的 Qwen-Image 上也迁移得很好，并在那里同样显示出积极效果。

Lens-Turbo 可在一秒内生成图像

为了加快推理速度，微软构建了一个名为 Lens-Turbo 的蒸馏版本，它只需四步就能生成一张图像。标准模型在 H100 GPU 上生成一张一百万像素的图像大约需要三秒，而 Lens-Turbo 可以在不到一秒内完成。

根据报告，在提示词忠实度、文本渲染和复杂场景等基准测试中，Lens 的表现优于 FLUX.2-Klein 和 Z-Image，并且在某些情况下甚至超过了参数量多出五倍的 Qwen-Image。团队也承认，它在日语或法语等语言的文本渲染方面存在不足，并将其归因于数据覆盖上的缺口。

微软已在 MIT 许可下开源了 Lens 的代码和模型检查点。模型权重可在 Hugging Face 上获取，推理代码则在 GitHub 仓库中。微软指出，Lens 仅供研究用途，尚未获准用于生产环境。由于训练数据部分来自网络来源，模型可能生成带有偏见或有问题的内容，因此用户需要自行加入安全措施。

由 Mustafa Suleyman 领导的微软 MAI 团队近期也已为消费级产品推出了自家的图像模型。MAI-Image-2 及其后继版本 MAI-Image-2.5 在 Arena.ai 排行榜上位列第三，与谷歌的 Nano Banana 2 持平，但落后于 OpenAI 的 ChatGPT Images 2.0。

来源与参考

收录于 2026-06-09