月之暗面开源FlashKDA:Kimi Delta注意力内核,H20上提速1.72-2.22倍
Kimi开源基于CUTLASS的高性能Kimi Delta Attention内核实现FlashKDA,在H20上prefill阶段较flash-linear-attention基线提速1.72-2.22倍,可作为其直接替代后端。
查看原文本解读由 AI 自动生成 · 模板:事件解读 · 仅供参考,请以原文为准。
Kimi开源基于CUTLASS的高性能Kimi Delta Attention内核实现FlashKDA,在H20上prefill阶段较flash-linear-attention基线提速1.72-2.22倍,可作为其直接替代后端。
查看原文