产品发布 @lmsysorg 2026-04-25

LMSYS：SGLang 与 Miles 实现 DeepSeek-V4 Day-0 支持

技术博客披露 Pro 1.6T 在 B200 上跑出 199 tok/s、Flash 284B 在 H200 上 266 tok/s（4K 上下文），900K 长上下文仍保持 180/240 tok/s；亮点包括混合稀疏注意力、流形约束超连接（mHC）与 FP4 专家权重，并附完整 RL 训练栈。

查看原文

TL;DR · 产品解读

LMSYS 联合 SGLang 与 Miles 在 DeepSeek-V4 发布当天即实现推理支持，实测 Pro 1.6T（B200）达 199 tok/s、Flash 284B（H200）达 266 tok/s，900K 超长上下文不掉速至 180+ tok/s。mHC 流形约束超连接与 FP4 专家权重是本次核心架构亮点，意味着国产 MoE 模型首次在大规模推理框架获得 Day-0 一级支持。

深度解读

产品具体是什么

LMSYS Org 宣布 SGLang 与 Miles 两个主流推理服务框架在 DeepSeek-V4 发布当天即完成适配支持（Day-0 support）。这不是一次普通 benchmark 刷榜，而是框架层对 DeepSeek-V4 架构特性的系统适配：包括混合稀疏注意力（Mixed Sparse Attention）、流形约束超连接（mHC，Manifold-constrained HyperConnectivity）以及 FP4 专家权重量化。

实测关键数字：

Pro 1.6T（近似 MoE 1.6T 参数版）：B200 × 1，throughput 199 tok/s
Flash 284B：H200 × 1，4K 上下文下 266 tok/s
900K token 超长上下文：仍维持 180/240 tok/s，几乎不掉速

这意味着即使面对业界最长的上下文窗口之一，推理吞吐量损失控制在 30% 以内，稀疏注意力与 mHC 的组合功不可没。

解决什么问题

● 未登录访客

SMARTFLOW PRO

继续阅读深度解读 + 编辑加注

下方还有 3-5 段深度分析 + Vincent 编辑加注 + 可点击信源，仅 Pro 会员可见

加入机智流 PRO →

¥99 / 季 · 每周 1 篇深度研报 · 飞书+微信群双通道

已是 Pro 但仍被提示？联系反馈

参考来源

LMSYS 官方推文：SGLang 与 Miles 实现 DeepSeek-V4 Day-0 支持 · 2026-04-25
SGLang GitHub 仓库 · 2026-04-25
vLLM 官方文档：量化支持矩阵 · 2026-04-25

本解读由 AI 自动生成 · 模板：产品解读 · 仅供参考，请以原文为准。