产品发布 @vllm_project 2026-03-24

vLLM：全新 Model Runner V2 重构执行核心，高吞吐场景性能大幅提升

vLLM 从零重建执行核心，推出 Model Runner V2，采用模块化设计、GPU 原生输入准备、异步零同步和 Triton 原生采样器，在高吞吐和推测解码场景下性能显著提升，API 无变化。

本解读由 AI 自动生成 · 模板：事件解读 · 仅供参考，请以原文为准。