← 返回资讯
大模型 @vllm_project 2026-04-28

vLLM:v0.20.0 发布,新增 DeepSeek V4 与 Hunyuan v3 预览支持

752 个 commit、320 名贡献者;CUDA 13 + PyTorch 2.11 + Transformers v5 成为新基线,FA4 成为 MLA prefill 默认实现,TurboQuant 2-bit KV 缓存容量提升 4 倍。

查看原文
TL;DR · 产品解读

vLLM 0.20.0 是开源推理引擎的里程碑更新,FA4 成为 MLA 默认实现使预填充效率大幅提升,TurboQuant 2-bit 量化让 KV 缓存容量暴增 4 倍,配合 CUDA 13 新基线将改变大模型部署的成本结构。

深度解读

这次更新了什么?

vLLM 0.20.0 是一个集大成版本:752 个 commit、320 名贡献者共同完成。核心变化有三:

新增模型支持

DeepSeek V4 和腾讯 Hunyuan v3 的预览支持值得注意。DeepSeek V4 预计是其 MoE 架构的下一代产品,Hunyuan v

未登录访客
SMARTFLOW PRO

继续阅读深度解读 + 编辑加注

下方还有 3-5 段深度分析 + Vincent 编辑加注 + 可点击信源,仅 Pro 会员可见

加入机智流 PRO →

¥99 / 季 · 每周 1 篇深度研报 · 飞书+微信群双通道

已是 Pro 但仍被提示?联系反馈

参考来源
  1. vLLM 0.20.0 发布公告 · 2026-04-28
  2. FlashAttention 4 官方文档 · 2026-04-28
  3. DeepSeek MLA 架构论文 · 2026-04-28
本解读由 AI 自动生成 · 模板:产品解读 · 仅供参考,请以原文为准。