vLLM:v0.20.0 发布,新增 DeepSeek V4 与 Hunyuan v3 预览支持
752 个 commit、320 名贡献者;CUDA 13 + PyTorch 2.11 + Transformers v5 成为新基线,FA4 成为 MLA prefill 默认实现,TurboQuant 2-bit KV 缓存容量提升 4 倍。
查看原文vLLM 0.20.0 是开源推理引擎的里程碑更新,FA4 成为 MLA 默认实现使预填充效率大幅提升,TurboQuant 2-bit 量化让 KV 缓存容量暴增 4 倍,配合 CUDA 13 新基线将改变大模型部署的成本结构。
这次更新了什么?
vLLM 0.20.0 是一个集大成版本:752 个 commit、320 名贡献者共同完成。核心变化有三:
- CUDA 13 + PyTorch 2.11 + Transformers v5 升基线:这是近年来最大跨度的基础设施升级。新 CUDA 栈解锁了 Hopper 架构的更多特性,与 FlashAttention 4 的深度集成成为可能。
- FA4 成为 MLA prefill 默认实现:Multi-head Latent Attention(DeepSeek 系列的关键注意力架构)此前需要手动启用,现在开箱即用。官方数据显示 prefill 阶段吞吐提升约 30-40%。
- TurboQuant 2-bit KV 缓存容量提升 4 倍:传统 FP16 KV 缓存是内存大头。2-bit 量化后,同等显存可容纳的上下文长度翻 4 倍——这对长上下文任务(如 RAG、文档分析)意义重大。
新增模型支持
DeepSeek V4 和腾讯 Hunyuan v3 的预览支持值得注意。DeepSeek V4 预计是其 MoE 架构的下一代产品,Hunyuan v
继续阅读深度解读 + 编辑加注
下方还有 3-5 段深度分析 + Vincent 编辑加注 + 可点击信源,仅 Pro 会员可见
¥99 / 季 · 每周 1 篇深度研报 · 飞书+微信群双通道
已是 Pro 但仍被提示?联系反馈
- vLLM 0.20.0 发布公告 · 2026-04-28
- FlashAttention 4 官方文档 · 2026-04-28
- DeepSeek MLA 架构论文 · 2026-04-28