← 返回资讯
产品发布 @nvidia 2026-04-01

NVIDIA:MLPerf Inference v6.0 基准测试中交付最高 token 产出

NVIDIA 在 MLPerf Inference v6.0 中通过极致协同设计,在最广泛的模型和场景中实现最高 token 产出,最大化 AI 工厂生产力。

查看原文
TL;DR · 产品解读

NVIDIA 在 MLPerf Inference v6.0 中以「极致协同设计」策略刷新 throughput 纪录,主打全场景 token 产出最大化。H100/H200/B100 系列在 LLM 推理benchmark 中继续领跑,但 GPU 仍是核心瓶颈——真正赢家是能利用 NVLink/NVSwitch 横向扩展的系统架构。

深度解读

2026 年 4 月 MLCommons 发布的 MLPerf Inference v6.0 基准测试中,NVIDIA 再次以 「极致软硬件协同设计」(co-design)为核心叙事,在 LLM 推理类目(LLM / GPT-J / Llama-2-70B / Mixtral-8x7B 等场景)刷新 token/sec 纪录。这次公告的核心主张不是「单卡最快」,而是在最多模型、最多部署场景下实现最高综合 token 产出——瞄准的是 AI 工厂(AI Factory)和大规模批量推理(Batch Inference)场景。

产品具体是什么

NVIDIA 此次送测的并非单一一款 GPU,而是基于 GB200 NVL72 机柜级系统H100/H200 SXM 集群的整套方案:

参考来源
  1. NVIDIA MLPerf Inference v6.0 公告 · 2026-04-01
  2. MLPerf Inference v6.0 官方结果页面 · 2026-04-01
  3. NVIDIA Blackwell 架构白皮书(GB200 规格) · 2025-03-18
本解读由 AI 自动生成 · 模板:产品解读 · 仅供参考,请以原文为准。