英伟达发布Nemotron 3 Nano Omni,公开训练数据细节

The Decoder··作者 Maximilian Schreiner

关键信息

该模型采用Mamba-Transformer混合架构与专家混合机制,支持高达25.6万token的上下文窗口,并针对文档处理和GUI交互等代理任务进行了优化;还包含强化学习流水线及多种编码器(如C-RADIOv4-H用于视觉,Parakeet-TDT用于音频)。

资讯摘要

英伟达推出的Nemotron 3 Nano Omni是一个强大的开源多模态模型,可处理文本、图像、视频和音频,基于300亿参数架构专为代理类应用设计。它在七个阶段中使用了7170亿个标记进行训练,其中大量合成数据来自Qwen、GPT-OSS、Kimi和DeepSeek-OCR等竞品模型。除了以BF16、FP8和NVFP4格式提供的模型权重外,英伟达还发布了部分训练数据、训练流水线(基于Megatron-Bridge)和强化学习配方(基于NeMo-RL)。

基准测试显示其性能相比前代显著提升,特别是在GUI代理准确率上从11.1提高到47.4分,吞吐量最高比Qwen3-Omni快9倍。该模型默认启用推理模式,且根据NVIDIA开放模型协议允许商用。

英伟达发布Nemotron 3 Nano Omni,公开训练数据细节

资讯正文

NVIDIA发布Nemotron 3 Nano Omni,揭示现代多模态模型的真实构成

关键要点

- NVIDIA发布了Nemotron 3 Nano Omni,这是一个开源AI模型,能够处理文本、图像、视频和音频,并专为代理类应用设计。

- 训练过程涉及7170亿个标记。其中大部分合成训练数据来自Qwen、gpt-oss和DeepSeek-OCR等竞争模型。

- NVIDIA不仅发布了模型权重,还开放了部分训练数据和流程。该模型可用于商业用途。

NVIDIA发布了Nemotron 3 Nano Omni,这是一个开源的多模态模型,可在单一架构中处理文本、图像、视频和音频。这款拥有300亿参数的模型采用Mamba-Transformer混合结构,结合专家混合(MoE)机制,每次查询激活约30亿参数。它使用NVIDIA自研的C-RADIOv4-H视觉编码器和Parakeet-TDT音频编码器,上下文窗口最大可达256,000个标记。目前唯一正式支持的语言是英语。

根据技术报告,Nemotron 3 Nano Omni主要面向代理类应用场景:文档处理、计算机使用代理、视频和音频分析以及语音交互。在OCRBenchV2、MMLongBench-Doc、WorldSense和VoiceBench等基准测试中,该模型超越了前代产品Nemotron Nano V2 VL,并与阿里巴巴的Qwen3-Omni实力相当。在GUI代理专用基准OSWorld上,准确率从上一代的11.1提升至47.4,同时在相同交互水平下,吞吐量比Qwen3-Omni高出最多九倍。

竞争对手模型如何塑造训练数据

基准测试是一方面,但训练数据细节同样引人关注——这类细节只有在真正开源的情况下才能获得。NVIDIA在七个训练阶段中共处理了约7170亿个标记,每个阶段的上下文窗口逐步扩大。

大量合成训练数据来源于竞争模型。图像描述、问答对和推理轨迹由Qwen3-VL-30B-A3B-Instruct、Qwen3.5-122B-A10B、Qwen2.5-VL-72B-Instruct、OpenAI的gpt-oss-120b、Kimi-K2.5、GLM-4.1V-9B-Thinking和DeepSeek-OCR生成。NVIDIA还引入了GPT-4o和Gemini 3 Flash Preview用于过滤处理。

利用其他模型训练新模型在业内很常见,但大多数开发者并不像NVIDIA这样坦率。OpenAI、Anthropic和谷歌曾多次指责中国AI实验室大规模进行知识蒸馏。

音频数据包括NVIDIA自己的Granary和SIFT-50M数据集,以及来自Qwen Omni-Captioner的字幕。强化学习阶段,团队构建了一个包含五个阶段的管道,覆盖25个环境,涵盖视觉定位、图表和文档理解、GUI点击和自动语音识别等任务。

随着Nemotron 3 Nano Omni的发布,英伟达揭示了现代多模态模型背后的真实构成。

除了BF16、FP8和NVFP4格式的权重外,英伟达还发布了部分训练数据、基于Megatron-Bridge的训练流水线以及基于NeMo-RL的强化学习配方。这使得此次发布区别于仅提供权重的项目。推理模式默认开启,用户需手动关闭以用于不需要思维链的任务。该模型遵循NVIDIA开放模型协议,允许商业用途。

AI新闻去 hype——由人类精选

订阅THE DECODER以获得无广告阅读体验、每周AI简报、每年六次独家“AI雷达”前沿报告、完整档案访问权限及评论区访问权限。

来源与参考

  1. 原始链接
  2. With Nemotron 3 Nano Omni, Nvidia reveals what really goes into a modern multimodal model

收录于 2026-04-30