vLLM:v0.17.0 大版本发布,集成 FlashAttention 4 和 Qwen3.5 模型家族
vLLM 发布 v0.17.0,包含 699 个提交和 272 位贡献者。主要更新:FlashAttention 4 集成、Qwen3.5(GDN 门控增量网络)支持、Model Runner V2 成熟化(管道并行/Eagle3+CUDA 图)、新增 --performance-mode 参数、权重卸载 V2 预取、弹性专家并行及量化 LoRA 适配器加载。
查看原文本解读由 AI 自动生成 · 模板:事件解读 · 仅供参考,请以原文为准。