英伟达用288张GPU创下MLPerf新纪录

The Decoder·4月2日 22:59 UTC·作者 Maximilian Schreiner

关键信息

英伟达的GB300-NVL72系统结合Blackwell Ultra GPU，在不更换硬件的情况下通过Dynamo、Wide Expert Parallel和Multi-Token Prediction等软件优化，使DeepSeek-R1性能提升2.7倍。

资讯摘要

MLCommons于2026年4月1日发布了MLPerf推理v6.0的结果，新增了包括多模态模型Qwen3-VL和文本转视频模型WAN-2.2-T2V在内的五个测试项。英伟达提交了所有新模型的结果，使用288张GPU在多节点配置下实现了每秒约249万token的DeepSeek-R1性能表现。仅靠软件优化就在相同硬件上将吞吐量提升了2.7倍。

AMD使用最多94张GPU在Llama 2 70B上首次突破每秒百万token，英特尔则聚焦工作站级GPU市场。谷歌和Cerebras未参与，因配置差异导致直接比较困难。

资讯正文

Nvidia凭借288个GPU创下MLPerf新纪录，AMD与Intel则聚焦不同战场

最新一轮行业顶级推理基准测试首次引入多模态和视频模型。Nvidia、AMD和Intel各自突出不同的指标，使得直接比较变得困难。

基准组织MLCommons于2026年4月1日公布了MLPerf Inference v6.0的结果。三家主要芯片制造商均提交了数据并声称获得榜首。但这些结果仅部分可比：Nvidia、AMD和Intel使用不同的系统配置、模型和场景，每家公司都以自己的优势为核心来展示数据。

例如，Nvidia主要在其DeepSeek-R1和新推出的GPT-OSS-120B模型上展示纪录，有时采用288个GPU的配置。AMD在单节点设置中（配备八个GPU）将其与Nvidia的B200和B300进行对比，但并未提交DeepSeek-R1或多模态Qwen3-VL的结果。Intel则瞄准完全不同的市场细分，与工作站GPU竞争。任何试图理解这些数据的人都需要牢记这些差异。

值得注意的是，Google未提交其最新Ironwood架构TPU芯片的数据，也没有像Cerebras这样的推理专业公司参与。

五个新基准显著扩展了测试套件

MLPerf Inference v6.0新增了多个测试项目：针对DeepSeek-R1的交互式场景，最小标记生成速率提高了五倍；首个多模态模型Qwen3-VL-235B加入测试套件；OpenAI的GPT-OSS-120B；文本到视频模型WAN-2.2-T2V；以及基于Transformer的推荐基准DLRMv3。只有Nvidia提交了所有新模型和场景的结果。

仅靠软件优化即可使Nvidia的吞吐量翻倍

据Nvidia称，搭载Blackwell Ultra GPU的GB300-NVL72系统在所有新工作负载中实现了最高吞吐量。该公司强调，在相同硬件条件下，通过纯软件优化，其在服务器场景下对DeepSeek-R1的性能提升了2.7倍——相比六个月前首次提交时的成绩。这一改进由Nvidia合作伙伴Nebius实现。Nvidia表示，这使其令牌生成成本降低了超过60%。

这些提升来自一系列软件层面的调整。基础计算操作被加速并融合在一起，使GPU减少在开销上的时间。Nvidia开源框架Dynamo将文本生成分为两个阶段（输入处理和新标记生成），并分别进行优化。

对于像DeepSeek-R1这样每次请求仅激活部分参数的模型，Wide Expert Parallel通过将专家权重分布到更多GPU上，避免单一显卡成为瓶颈。在交互式场景中，当批处理大小较小时计算资源闲置，Multi-Token Prediction会一次性生成多个标记而非仅一个。Nvidia称，即使是在较老的Llama 3.1 405B模型上，服务器性能也提升了1.5倍。

在MLPerf推理测试中，Nvidia通过288个GPU构建了迄今为止最大的配置，创下新纪录。该公司将四个GB300-NVL72系统通过Quantum-X800 InfiniBand互联，在离线场景下实现了DeepSeek-R1模型每秒约249万个token的性能表现。共有14家合作伙伴提交了基于Nvidia平台的结果，是本轮测试中数量最多的平台。Nvidia表示，自2018年以来，其累计获得的MLPerf胜利已达291次，是其他所有提交方总和的九倍。

AMD缩小单节点差距，首次突破每秒百万token大关

根据AMD博客文章，采用3纳米制造工艺、配备高达288 GB HBM3E显存的CDNA 4架构Instinct MI355X GPU首次在MLPerf测试中实现每秒超过百万token的性能——但这一成绩是在使用最多94个GPU进行多节点扩展的情况下达成的，分别针对Llama 2 70B和GPT-OSS-120B模型。与上一代MI325X相比，AMD称MI355X在Llama 2 70B服务器基准测试中的吞吐量提升了3.1倍。

最直接的对比出现在每个节点配备八个GPU的单节点设置中：AMD表示，MI355X在Llama 2 70B模型的离线场景中与Nvidia的B200性能持平，在服务器场景中达到其97%，在交互式场景中则达到B200的119%。若与更新的B300对比，则相应数值分别为92%、93%和104%。在GPT-OSS-120B模型上，MI355X在离线和服务器模式下分别比B200快11%和15%，但在与B300对比时则分别落后9%和18%。

有两个重要限制需注意：首先，AMD未提交包含MoE架构的DeepSeek-R1模型（Nvidia在此项上表现最强）结果；其次，AMD提交的文本转视频模型Wan-2.2属于开放类别而非封闭类别，这使得正式比较受限。此外，AMD提到一些截止日期后得出的数据表明其性能达到B200的108%，但指出这些数字未经MLCommons验证。

据AMD介绍，跨11个节点的多节点扩展效率达到93%至98%。值得一提的是，这是首次出现异构MLPerf提交：戴尔与MangoBoost在美国和韩国多个站点联合部署MI300X、MI325X和MI355X GPU，在服务器模式下实现了Llama 2 70B模型每秒约14.2万个token的性能。共有九家合作伙伴提交了基于AMD硬件的结果，得分与AMD自身测量值相差不超过4%。

Intel避开数据中心战场，转向工作站和边缘计算

Intel采取了截然不同的策略。它并未直接与Nvidia和AMD在数据中心领域竞争，而是展示其Arc Pro B70和B65 GPU搭配Xeon 6处理器组成的推理平台，专为工作站和边缘设备设计。Intel称，搭载四张Arc Pro B70显卡的系统提供128 GB显存，可高效运行具有高并行性的1200亿参数模型。Arc Pro B70的推理性能最高可达Arc Pro B60的1.8倍。

Nvidia凭借288个GPU创下新的MLPerf纪录，而AMD和Intel则聚焦于不同的战场

据称，在相同的B60硬件上进行软件优化后，性能提升最高可达1.18倍，超过了MLPerf v5.1的基准。Intel强调，它是唯一一家提交独立CPU结果用于MLPerf Inference的服务器处理器制造商。在MLPerf 6.0的所有提交中，超过一半使用Xeon作为主机CPU。

为何这些结果无法得出简单排名

结果显示，尽管MLPerf Inference仍然是AI推理基准测试最重要的行业标准，但它并未产生一个清晰的排行榜。多年来，Nvidia一直展现出最广泛的最新基准覆盖范围以及在大规模场景下最高的绝对吞吐量。然而，在单节点设置中，AMD声称在多个场景下的得分与Nvidia的B200相当甚至更高，尽管其覆盖的基准较少。Intel则服务于完全不同的市场。

此外，每个芯片制造商自然会突出展示自家产品表现最佳的场景和配置。AMD与Nvidia B200和B300的百分比对比提供了目前最透明的直接对比数据，但仅适用于AMD实际提交的模型和场景。Nvidia使用288个GPU的扩展结果没有AMD对应项。Nvidia的2.7倍软件改进与AMD的3.1倍代际跃升衡量的是根本不同的东西：前者是在相同硬件上的纯软件优化，后者则是全新芯片架构带来的进步。

Nvidia推动设立新基准以衡量真实API性能

迈向更好可比性的一步可能来自即将推出的MLPerf Endpoints基准。Nvidia在其博客文章中宣布，正推动该基准在MLCommons联盟内的定义。理由是，当前测试虽然能测量标准化条件下单个芯片和系统的吞吐量，但无法捕捉推理服务在真实API流量下的实际表现。随着代理型AI系统对极快标记速率的需求增加，Nvidia表示，超越单纯芯片基准的测量方法需求正在增长。这自然契合了Nvidia的优势：该公司最近推出了Vera Rubin系统，专门针对这类工作负载设计。

据Nvidia称，MLPerf Endpoints将为社区提供一个可验证的视角，展示部署的服务在现实负载下的实际表现。目标是捕捉硬件基准无法揭示的指标，例如延迟波动、并发请求下的吞吐量以及整体基础设施效率。

与此同时，AMD指出其计划于2026年推出的基于CDNA 5架构的MI400系列以及Helios机架级解决方案。最高效AI推理的竞争将进一步加剧。

无炒作的AI新闻——由人类精选

来源与参考

收录于 2026-04-03