英伟达发布Nemotron 3 Nano Omni，公开训练数据细节

The Decoder·4月29日 17:28 UTC·作者 Maximilian Schreiner

关键信息

该模型采用Mamba-Transformer混合架构与专家混合机制，支持高达25.6万token的上下文窗口，并针对文档处理和GUI交互等代理任务进行了优化；还包含强化学习流水线及多种编码器（如C-RADIOv4-H用于视觉，Parakeet-TDT用于音频）。

资讯摘要

英伟达推出的Nemotron 3 Nano Omni是一个强大的开源多模态模型，可处理文本、图像、视频和音频，基于300亿参数架构专为代理类应用设计。它在七个阶段中使用了7170亿个标记进行训练，其中大量合成数据来自Qwen、GPT-OSS、Kimi和DeepSeek-OCR等竞品模型。除了以BF16、FP8和NVFP4格式提供的模型权重外，英伟达还发布了部分训练数据、训练流水线（基于Megatron-Bridge）和强化学习配方（基于NeMo-RL）。

基准测试显示其性能相比前代显著提升，特别是在GUI代理准确率上从11.1提高到47.4分，吞吐量最高比Qwen3-Omni快9倍。该模型默认启用推理模式，且根据NVIDIA开放模型协议允许商用。

资讯正文

NVIDIA发布Nemotron 3 Nano Omni，揭示现代多模态模型的真实构成

关键要点

- NVIDIA发布了Nemotron 3 Nano Omni，这是一个开源AI模型，能够处理文本、图像、视频和音频，并专为代理类应用设计。

- 训练过程涉及7170亿个标记。其中大部分合成训练数据来自Qwen、gpt-oss和DeepSeek-OCR等竞争模型。

- NVIDIA不仅发布了模型权重，还开放了部分训练数据和流程。该模型可用于商业用途。

NVIDIA发布了Nemotron 3 Nano Omni，这是一个开源的多模态模型，可在单一架构中处理文本、图像、视频和音频。这款拥有300亿参数的模型采用Mamba-Transformer混合结构，结合专家混合（MoE）机制，每次查询激活约30亿参数。它使用NVIDIA自研的C-RADIOv4-H视觉编码器和Parakeet-TDT音频编码器，上下文窗口最大可达256,000个标记。目前唯一正式支持的语言是英语。

根据技术报告，Nemotron 3 Nano Omni主要面向代理类应用场景：文档处理、计算机使用代理、视频和音频分析以及语音交互。在OCRBenchV2、MMLongBench-Doc、WorldSense和VoiceBench等基准测试中，该模型超越了前代产品Nemotron Nano V2 VL，并与阿里巴巴的Qwen3-Omni实力相当。在GUI代理专用基准OSWorld上，准确率从上一代的11.1提升至47.4，同时在相同交互水平下，吞吐量比Qwen3-Omni高出最多九倍。

竞争对手模型如何塑造训练数据

基准测试是一方面，但训练数据细节同样引人关注——这类细节只有在真正开源的情况下才能获得。NVIDIA在七个训练阶段中共处理了约7170亿个标记，每个阶段的上下文窗口逐步扩大。

大量合成训练数据来源于竞争模型。图像描述、问答对和推理轨迹由Qwen3-VL-30B-A3B-Instruct、Qwen3.5-122B-A10B、Qwen2.5-VL-72B-Instruct、OpenAI的gpt-oss-120b、Kimi-K2.5、GLM-4.1V-9B-Thinking和DeepSeek-OCR生成。NVIDIA还引入了GPT-4o和Gemini 3 Flash Preview用于过滤处理。

利用其他模型训练新模型在业内很常见，但大多数开发者并不像NVIDIA这样坦率。OpenAI、Anthropic和谷歌曾多次指责中国AI实验室大规模进行知识蒸馏。

音频数据包括NVIDIA自己的Granary和SIFT-50M数据集，以及来自Qwen Omni-Captioner的字幕。强化学习阶段，团队构建了一个包含五个阶段的管道，覆盖25个环境，涵盖视觉定位、图表和文档理解、GUI点击和自动语音识别等任务。

随着Nemotron 3 Nano Omni的发布，英伟达揭示了现代多模态模型背后的真实构成。

除了BF16、FP8和NVFP4格式的权重外，英伟达还发布了部分训练数据、基于Megatron-Bridge的训练流水线以及基于NeMo-RL的强化学习配方。这使得此次发布区别于仅提供权重的项目。推理模式默认开启，用户需手动关闭以用于不需要思维链的任务。该模型遵循NVIDIA开放模型协议，允许商业用途。

AI新闻去 hype——由人类精选

订阅THE DECODER以获得无广告阅读体验、每周AI简报、每年六次独家“AI雷达”前沿报告、完整档案访问权限及评论区访问权限。

来源与参考

收录于 2026-04-30