← 返回资讯
芯片 @vllm_project 2026-02-28

vLLM:AMD GPU 注意力后端优化,解码吞吐量提升 4.4 倍

AMD 与 EmbeddedLLM 为 vLLM 在 ROCm 平台构建了 7 个注意力后端,通过 KV 缓存布局重排和跨块 log-sum-exp 合并,ROCM_AITER_FA 在 AMD GPU 上实现 4.4 倍解码吞吐量提升。

查看原文
本解读由 AI 自动生成 · 模板:事件解读 · 仅供参考,请以原文为准。