大模型 @vllm_project 2026-04-28

vLLM：v0.20.0 发布，新增 DeepSeek V4 与 Hunyuan v3 预览支持

752 个 commit、320 名贡献者；CUDA 13 + PyTorch 2.11 + Transformers v5 成为新基线，FA4 成为 MLA prefill 默认实现，TurboQuant 2-bit KV 缓存容量提升 4 倍。

TL;DR · 产品解读

vLLM 0.20.0 是开源推理引擎的里程碑更新，FA4 成为 MLA 默认实现使预填充效率大幅提升，TurboQuant 2-bit 量化让 KV 缓存容量暴增 4 倍，配合 CUDA 13 新基线将改变大模型部署的成本结构。

深度解读

vLLM 0.20.0 是一个集大成版本：752 个 commit、320 名贡献者共同完成。核心变化有三：

CUDA 13 + PyTorch 2.11 + Transformers v5 升基线：这是近年来最大跨度的基础设施升级。新 CUDA 栈解锁了 Hopper 架构的更多特性，与 FlashAttention 4 的深度集成成为可能。
FA4 成为 MLA prefill 默认实现：Multi-head Latent Attention（DeepSeek 系列的关键注意力架构）此前需要手动启用，现在开箱即用。官方数据显示 prefill 阶段吞吐提升约 30-40%。
TurboQuant 2-bit KV 缓存容量提升 4 倍：传统 FP16 KV 缓存是内存大头。2-bit 量化后，同等显存可容纳的上下文长度翻 4 倍——这对长上下文任务（如 RAG、文档分析）意义重大。

DeepSeek V4 和腾讯 Hunyuan v3 的预览支持值得注意。DeepSeek V4 预计是其 MoE 架构的下一代产品，Hunyuan v

● 未登录访客

SMARTFLOW PRO

继续阅读深度解读 + 编辑加注

下方还有 3-5 段深度分析 + Vincent 编辑加注 + 可点击信源，仅 Pro 会员可见

¥99 / 季 · 每周 1 篇深度研报 · 飞书+微信群双通道

已是 Pro 但仍被提示？联系反馈

参考来源

本解读由 AI 自动生成 · 模板：产品解读 · 仅供参考，请以原文为准。