vLLM:FP8 KV cache 把 128k 大海捞针准确率从 13% 拉到 89%
AWS 与 Red Hat 在 vLLM 中实现 FP8 KV cache + 注意力优化:FA3 中引入两级累加,把 128k 大海捞针准确率从 13% 提升到 89%,同时保留 FP8 解码加速。
查看原文本解读由 AI 自动生成 · 模板:事件解读 · 仅供参考,请以原文为准。
AWS 与 Red Hat 在 vLLM 中实现 FP8 KV cache + 注意力优化:FA3 中引入两级累加,把 128k 大海捞针准确率从 13% 提升到 89%,同时保留 FP8 解码加速。
查看原文