微软研究证明详细字幕比规模更重要
The Decoder··作者 Jonathan Kemper
关键信息
Lens-800M 数据集包含 8 亿对图文数据,字幕由 GPT-4.1 生成,平均大约 100 个词,微软在消融实验中表示,长字幕明显优于短字幕或混合字幕。该模型还能泛化到未见过的分辨率和长宽比,最高约可到 200 万像素;它使用 GPT-OSS 作为文本编码器,并有一个蒸馏版 Lens-Turbo,可在四步内、不到一秒生成图像。
资讯摘要
微软研究院发布了 Lens,这是一款文生图模型,目标是在训练算力远低于大型竞品的情况下依然保持竞争力。根据技术报告,Lens 的预训练算力大约只有 Z-Image 这类可比模型的五分之一,但在多个基准上却能击败许多参数规模大得多的系统。文章还举例对比了 Hunyuan-Image-3.0,它大约有 800 亿参数,而 Lens 只有 38 亿参数。微软认为,这种效率并不是单靠模型变小获得的,而是来自更高质量的训练信号和更合理的架构设计。其核心做法之一是 Lens-800M 数据集,包含 8 亿对图文数据,字幕由 GPT-4.1 生成,平均长度约 100 个词。微软表示,消融实验显示,这些长字幕比短字幕或混合字幕效果明显更好,因为网页上抓取的 alt-text 往往很模糊,甚至是错误的。
团队还在每个训练批次中混合不同分辨率和长宽比,这让模型可以泛化到未见过的格式,并支持最高约 200 万像素的图像,而无需昂贵的高分辨率训练。架构方面,微软测试了多种变分自编码器,最终发现 FLUX.2 的语义 VAE 在文生图训练和收敛速度上表现最好。模型还使用 GPT-OSS 作为文本编码器,微软指出,更强的语言编码器可以提升训练速度、提示词忠实度,并让模型在只用英文图文对训练的情况下仍能接受中文、法语、日语或西班牙语提示。预训练之后,Lens 还会进入强化学习阶段,使用名为 Lens-RL-8K 的自定义提示集,微软称提示多样性比单纯增加数量更重要。面向用户生成时,系统会先放一个 reasoner,把模糊输入改写成更详细的提示,默认使用 GPT-5.5,也可以用不占额外显存的 GPT-OSS。最后,微软还推出了蒸馏版 Lens-Turbo,它只需四步即可生成图像,在 H100 GPU 上生成一张 1 兆像素图片的时间不到一秒,而标准版大约需要三秒。

资讯正文
微软研究院的 Lens 证明,在训练高效图像生成器时,细致的图像说明比单纯扩大规模更重要
在微软的 MAI 团队凭借加料版图像模型抢占聚光灯的同时,微软研究院正在证明:借助详细的图像说明和巧妙的架构选择,即使计算资源有限,也能走得很远。
微软研究院正在推出 Lens,这是一款文生图模型,旨在以远少于竞品的训练计算量与更大的对手竞争。根据技术报告,Lens 进行预训练所需的计算量大约只有 Z-Image 等可比模型的五分之一。它在多项基准上击败了许多体量数倍于它的模型。比如,Hunyuan-Image-3.0 大约有 800 亿个参数,而 Lens 只有 38 亿个。
丰富的图像说明比原始数据量更重要
研究人员认为,这种效率提升来自更紧凑的模型、更高的每步训练信息利用率,以及以更少轮次收敛的训练流程。Lens-800M 数据集位于这一方法的核心:它包含 8 亿组图文对,说明文字由 GPT-4.1 生成。平均每条说明大约 100 个词,远比从网页抓取的标准替代文本更详细。
微软表示,消融研究显示,使用这些长说明进行训练,效果明显优于使用短说明或混合说明。网页 alt-text 往往含糊不清,甚至完全错误,这会削弱学习信号。
团队还在每个训练批次中混合不同分辨率和宽高比——从竖幅到横幅。研究人员称,尽管模型是在一组固定图像尺寸上训练的,但它对未见过的格式和最高约 200 万像素的分辨率也能很好泛化。这节省了在高分辨率数据上进行昂贵训练的成本。
在架构方面,团队测试了变分自编码器的若干变体,它们负责在像素与压缩后的图像空间之间进行转换。微软没有只依赖标准重建指标,而是直接在文生图训练中测试候选方案。来自 FLUX.2 的语义 VAE 表现最佳,同时也加快了收敛速度。
文本编码器采用的是 GPT-OSS,这是 OpenAI 开放提供的一款语言模型。根据消融实验,更强的语言编码器带来两项好处:模型学习更快,并且能够处理它从未训练过的语言输入。Lens 只使用英文图文对进行训练,但它可以接受中文、法语、日语或西班牙语提示词。更强的语言编码器也提升了提示词遵循度。
一个推理器会改写含糊的用户提示词
在预训练之后,模型会进入强化学习阶段,使用一套名为 Lens-RL-8K 的自定义提示集。该提示集涵盖十个类别,包括人物、动物、场景、食物、虚构世界和 UI 设计。GPT-4.1 会为每个提示词生成匹配的评估标准,而一个更小的 GPT-4.1-mini 则充当奖励模型。
消融结果显示,缩小 RL 集合,或移除像文本密集型提示词这样的类别,都会削弱相关领域的表现。RL 提示词的多样性比单纯追求数量更重要。
微软在真正的图像模型前放置了一个推理器。它会把模糊的用户输入改写成更详细的提示词。默认使用的是 GPT-5.5,但作为文本编码器已经在用的 GPT-OSS 也可以胜任,而且不需要额外内存。
微软还描述了一种方法,可以在不进行任何额外训练的情况下,迭代改进推理器的系统提示词。研究人员表示,这一策略在更大得多的 Qwen-Image 上也迁移得很好,并在那里同样显示出积极效果。
Lens-Turbo 可在一秒内生成图像
为了加快推理速度,微软构建了一个名为 Lens-Turbo 的蒸馏版本,它只需四步就能生成一张图像。标准模型在 H100 GPU 上生成一张一百万像素的图像大约需要三秒,而 Lens-Turbo 可以在不到一秒内完成。
根据报告,在提示词忠实度、文本渲染和复杂场景等基准测试中,Lens 的表现优于 FLUX.2-Klein 和 Z-Image,并且在某些情况下甚至超过了参数量多出五倍的 Qwen-Image。团队也承认,它在日语或法语等语言的文本渲染方面存在不足,并将其归因于数据覆盖上的缺口。
微软已在 MIT 许可下开源了 Lens 的代码和模型检查点。模型权重可在 Hugging Face 上获取,推理代码则在 GitHub 仓库中。微软指出,Lens 仅供研究用途,尚未获准用于生产环境。由于训练数据部分来自网络来源,模型可能生成带有偏见或有问题的内容,因此用户需要自行加入安全措施。
由 Mustafa Suleyman 领导的微软 MAI 团队近期也已为消费级产品推出了自家的图像模型。MAI-Image-2 及其后继版本 MAI-Image-2.5 在 Arena.ai 排行榜上位列第三,与谷歌的 Nano Banana 2 持平,但落后于 OpenAI 的 ChatGPT Images 2.0。
来源与参考
收录于 2026-06-09