产品发布 @nvidia 2026-04-01

NVIDIA：MLPerf Inference v6.0 基准测试中交付最高 token 产出

NVIDIA 在 MLPerf Inference v6.0 中通过极致协同设计，在最广泛的模型和场景中实现最高 token 产出，最大化 AI 工厂生产力。

TL;DR · 产品解读

NVIDIA 在 MLPerf Inference v6.0 中以「极致协同设计」策略刷新 throughput 纪录，主打全场景 token 产出最大化。H100/H200/B100 系列在 LLM 推理benchmark 中继续领跑，但 GPU 仍是核心瓶颈——真正赢家是能利用 NVLink/NVSwitch 横向扩展的系统架构。

深度解读

2026 年 4 月 MLCommons 发布的 MLPerf Inference v6.0 基准测试中，NVIDIA 再次以 「极致软硬件协同设计」（co-design）为核心叙事，在 LLM 推理类目（LLM / GPT-J / Llama-2-70B / Mixtral-8x7B 等场景）刷新 token/sec 纪录。这次公告的核心主张不是「单卡最快」，而是在最多模型、最多部署场景下实现最高综合 token 产出——瞄准的是 AI 工厂（AI Factory）和大规模批量推理（Batch Inference）场景。

产品具体是什么

NVIDIA 此次送测的并非单一一款 GPU，而是基于 GB200 NVL72 机柜级系统和 H100/H200 SXM 集群的整套方案：

硬件：Grace CPU + Blackwell GPU（GB200）+ NVLink/NVSwitch 互连，单机柜 72 GPU，900TB/s GPU 间带宽
软件栈：TensorRT-LLM 优化内核 + CUDA

● 未登录访客

SMARTFLOW PRO

继续阅读深度解读 + 编辑加注

下方还有 3-5 段深度分析 + Vincent 编辑加注 + 可点击信源，仅 Pro 会员可见
加入机智流 PRO →
¥99 / 季 · 每周 1 篇深度研报 · 飞书+微信群双通道

已是 Pro 但仍被提示？联系反馈

参考来源

NVIDIA MLPerf Inference v6.0 公告 · 2026-04-01
MLPerf Inference v6.0 官方结果页面 · 2026-04-01
NVIDIA Blackwell 架构白皮书（GB200 规格） · 2025-03-18

本解读由 AI 自动生成 · 模板：产品解读 · 仅供参考，请以原文为准。