英伟达发布Nemotron 3 Nano Omni,公开训练数据细节
The Decoder··作者 Maximilian Schreiner
关键信息
该模型采用Mamba-Transformer混合架构与专家混合机制,支持高达25.6万token的上下文窗口,并针对文档处理和GUI交互等代理任务进行了优化;还包含强化学习流水线及多种编码器(如C-RADIOv4-H用于视觉,Parakeet-TDT用于音频)。
资讯摘要
英伟达推出的Nemotron 3 Nano Omni是一个强大的开源多模态模型,可处理文本、图像、视频和音频,基于300亿参数架构专为代理类应用设计。它在七个阶段中使用了7170亿个标记进行训练,其中大量合成数据来自Qwen、GPT-OSS、Kimi和DeepSeek-OCR等竞品模型。除了以BF16、FP8和NVFP4格式提供的模型权重外,英伟达还发布了部分训练数据、训练流水线(基于Megatron-Bridge)和强化学习配方(基于NeMo-RL)。
基准测试显示其性能相比前代显著提升,特别是在GUI代理准确率上从11.1提高到47.4分,吞吐量最高比Qwen3-Omni快9倍。该模型默认启用推理模式,且根据NVIDIA开放模型协议允许商用。

资讯正文
NVIDIA发布Nemotron 3 Nano Omni,揭示现代多模态模型的真实构成
关键要点
- NVIDIA发布了Nemotron 3 Nano Omni,这是一个开源AI模型,能够处理文本、图像、视频和音频,并专为代理类应用设计。
- 训练过程涉及7170亿个标记。其中大部分合成训练数据来自Qwen、gpt-oss和DeepSeek-OCR等竞争模型。
- NVIDIA不仅发布了模型权重,还开放了部分训练数据和流程。该模型可用于商业用途。
NVIDIA发布了Nemotron 3 Nano Omni,这是一个开源的多模态模型,可在单一架构中处理文本、图像、视频和音频。这款拥有300亿参数的模型采用Mamba-Transformer混合结构,结合专家混合(MoE)机制,每次查询激活约30亿参数。它使用NVIDIA自研的C-RADIOv4-H视觉编码器和Parakeet-TDT音频编码器,上下文窗口最大可达256,000个标记。目前唯一正式支持的语言是英语。
根据技术报告,Nemotron 3 Nano Omni主要面向代理类应用场景:文档处理、计算机使用代理、视频和音频分析以及语音交互。在OCRBenchV2、MMLongBench-Doc、WorldSense和VoiceBench等基准测试中,该模型超越了前代产品Nemotron Nano V2 VL,并与阿里巴巴的Qwen3-Omni实力相当。在GUI代理专用基准OSWorld上,准确率从上一代的11.1提升至47.4,同时在相同交互水平下,吞吐量比Qwen3-Omni高出最多九倍。
竞争对手模型如何塑造训练数据
基准测试是一方面,但训练数据细节同样引人关注——这类细节只有在真正开源的情况下才能获得。NVIDIA在七个训练阶段中共处理了约7170亿个标记,每个阶段的上下文窗口逐步扩大。
大量合成训练数据来源于竞争模型。图像描述、问答对和推理轨迹由Qwen3-VL-30B-A3B-Instruct、Qwen3.5-122B-A10B、Qwen2.5-VL-72B-Instruct、OpenAI的gpt-oss-120b、Kimi-K2.5、GLM-4.1V-9B-Thinking和DeepSeek-OCR生成。NVIDIA还引入了GPT-4o和Gemini 3 Flash Preview用于过滤处理。
利用其他模型训练新模型在业内很常见,但大多数开发者并不像NVIDIA这样坦率。OpenAI、Anthropic和谷歌曾多次指责中国AI实验室大规模进行知识蒸馏。
音频数据包括NVIDIA自己的Granary和SIFT-50M数据集,以及来自Qwen Omni-Captioner的字幕。强化学习阶段,团队构建了一个包含五个阶段的管道,覆盖25个环境,涵盖视觉定位、图表和文档理解、GUI点击和自动语音识别等任务。
随着Nemotron 3 Nano Omni的发布,英伟达揭示了现代多模态模型背后的真实构成。
除了BF16、FP8和NVFP4格式的权重外,英伟达还发布了部分训练数据、基于Megatron-Bridge的训练流水线以及基于NeMo-RL的强化学习配方。这使得此次发布区别于仅提供权重的项目。推理模式默认开启,用户需手动关闭以用于不需要思维链的任务。该模型遵循NVIDIA开放模型协议,允许商业用途。
AI新闻去 hype——由人类精选
订阅THE DECODER以获得无广告阅读体验、每周AI简报、每年六次独家“AI雷达”前沿报告、完整档案访问权限及评论区访问权限。
来源与参考
收录于 2026-04-30