NVIDIA:MLPerf Inference v6.0 基准测试中交付最高 token 产出
NVIDIA 在 MLPerf Inference v6.0 中通过极致协同设计,在最广泛的模型和场景中实现最高 token 产出,最大化 AI 工厂生产力。
查看原文NVIDIA 在 MLPerf Inference v6.0 中以「极致协同设计」策略刷新 throughput 纪录,主打全场景 token 产出最大化。H100/H200/B100 系列在 LLM 推理benchmark 中继续领跑,但 GPU 仍是核心瓶颈——真正赢家是能利用 NVLink/NVSwitch 横向扩展的系统架构。
2026 年 4 月 MLCommons 发布的 MLPerf Inference v6.0 基准测试中,NVIDIA 再次以 「极致软硬件协同设计」(co-design)为核心叙事,在 LLM 推理类目(LLM / GPT-J / Llama-2-70B / Mixtral-8x7B 等场景)刷新 token/sec 纪录。这次公告的核心主张不是「单卡最快」,而是在最多模型、最多部署场景下实现最高综合 token 产出——瞄准的是 AI 工厂(AI Factory)和大规模批量推理(Batch Inference)场景。
产品具体是什么
NVIDIA 此次送测的并非单一一款 GPU,而是基于 GB200 NVL72 机柜级系统和 H100/H200 SXM 集群的整套方案:
- 硬件:Grace CPU + Blackwell GPU(GB200)+ NVLink/NVSwitch 互连,单机柜 72 GPU,900TB/s GPU 间带宽
- 软件栈:TensorRT-LLM 优化内核 + CUDA
● 未登录访客SMARTFLOW PRO
继续阅读深度解读 + 编辑加注
下方还有 3-5 段深度分析 + Vincent 编辑加注 + 可点击信源,仅 Pro 会员可见
加入机智流 PRO →¥99 / 季 · 每周 1 篇深度研报 · 飞书+微信群双通道
已是 Pro 但仍被提示?联系反馈
- NVIDIA MLPerf Inference v6.0 公告 · 2026-04-01
- MLPerf Inference v6.0 官方结果页面 · 2026-04-01
- NVIDIA Blackwell 架构白皮书(GB200 规格) · 2025-03-18