← 返回资讯
芯片 @vllm_project 2026-05-31

vLLM 优化 Laguna XS.2:DFlash 推测解码提速 2-3 倍

RedHat AI 与 poolsideai 合作,DFlash 投机解码每步生成 8 token 实现无损加速,LLM Compressor 支持 FP8/NVFP4/INT4 量化压缩。

查看原文
本解读由 AI 自动生成 · 模板:事件解读 · 仅供参考,请以原文为准。