大模型 @vllm_project 2026-03-07

vLLM：v0.17.0 大版本发布，集成 FlashAttention 4 和 Qwen3.5 模型家族

vLLM 发布 v0.17.0，包含 699 个提交和 272 位贡献者。主要更新：FlashAttention 4 集成、Qwen3.5（GDN 门控增量网络）支持、Model Runner V2 成熟化（管道并行/Eagle3+CUDA 图）、新增 --performance-mode 参数、权重卸载 V2 预取、弹性专家并行及量化 LoRA 适配器加载。

查看原文

本解读由 AI 自动生成 · 模板：事件解读 · 仅供参考，请以原文为准。