← 返回资讯
企业动态 @vllm_project 2026-05-20

vLLM:联合 Novita Labs 推出 PegaFlow 外部 KV 缓存服务

vLLM 与 Novita Labs 合作发布生产级外部 KV 缓存服务 PegaFlow,以独立 Rust 守护进程运行,使 KV 缓存在引擎崩溃、升级和模型切换后依然保留,预热后可让 vLLM 启动速度提升 2.15 倍。

查看原文
TL;DR · 事件解读

vLLM 联手 Novita Labs 推出生产级外部 KV 缓存服务 PegaFlow,用 Rust 守护进程解决 LLM 推理中缓存易失痛点——引擎重启后无需重新预热,启动速度提升 2.15 倍。

深度解读

事件维度:vLLM 与 Novita Labs 的技术联姻

这条动态背后是 vLLM 社区与推理基础设施提供商 Novita Labs 的深度合作。PegaFlow 被定位为「生产级」外部 KV 缓存服务,其核心创新在于将 KV 缓存从 vLLM 引擎进程内抽离出来,以独立 Rust 守护进程(Rust daemon)的形式运行。这意味着缓存数据不再绑定 vLLM 进程生命周期,即使引擎崩溃、升级或切换模型,缓存仍可保留并快速复用。

技术层面,PegaFlow 解决了大模型推理中一个长期痛点:传统 vLLM 的 KV 缓存随引擎进程销毁而丢失,每次重启都需要重新预热(warm-up),既耗时又浪费 GPU 算力。根据官方数据,经过预热的 PegaFlow 可让 vLLM 启动速度提升 2.15 倍。对于需要频繁更新模型或处理长尾请求的生产环境,这一优化极具实际价值。

行业影响:推理效率与成本竞争的新维度

从行业视角看,PegaFlow 的出现呼应了 2025 年下半年以来 LLM 推理优化赛道的几大趋势:外部缓存服务化(避免进程耦合)、Rust 在推理基础设施中的采用(性能优先)、以及多模型切换场景的常态化。Novita Labs 本身提供商业化推理 API 服务,此次参与 PegaFl

未登录访客
SMARTFLOW PRO

继续阅读深度解读 + 编辑加注

下方还有 3-5 段深度分析 + Vincent 编辑加注 + 可点击信源,仅 Pro 会员可见

加入机智流 PRO →

¥99 / 季 · 每周 1 篇深度研报 · 飞书+微信群双通道

已是 Pro 但仍被提示?联系反馈

参考来源
  1. vLLM 官方发布 PegaFlow · 2026-05-20
  2. Novita Labs 官方主页 · 2026-05-20
本解读由 AI 自动生成 · 模板:事件解读 · 仅供参考,请以原文为准。