产品发布 @Alibaba_Qwen 2026-04-29

通义千问开源 FlashQLA：端侧 Agent 用的高性能线性注意力内核

Qwen 团队发布 FlashQLA，基于 TileLang 构建的高性能线性注意力内核，前向加速 2-3 倍、反向加速 2 倍，专为个人设备上的 Agent 工作负载设计，含门驱动的卡内 CP、硬件友好代数重构、TileLang warp 专用融合内核三大机制。

TL;DR · 产品解读

通义千问开源 FlashQLA，专为端侧 Agent 设计的高性能线性注意力内核，前向 2-3 倍、反向 2 倍加速。瞄准个人设备上的本地 AI 推理市场，是阿里在端侧基础设施的关键落子。

深度解读

FlashQLA 是通义千问团队基于 TileLang 框架开发的高性能线性注意力内核，已在 GitHub 开源（Apache 2.0）。核心能力是：在端侧设备（手机、PC）上将线性注意力机制的前向传播加速 2-3 倍，反向传播加速 2 倍。这意味着更低的延迟和功耗。

传统 Transformer 的 O(n²) 注意力计算在端侧几乎是死路一条——手机 SoC 的算力和内存带宽根本扛不住。线性注意力将复杂度降到 O(n)，但之前缺乏针对硬件特性深度优化的实现。FlashQLA 正是来解决这个「能用但不好用」的问题。

三大技术机制是看点：

门驱动的卡内（intra-chip）CP：类似 FlashAttention 的分块思想，但针对线性注意力的状态传递做了卡内通信优化;
硬件友好代数重构：对矩阵运算重排，让 SIMD/NEON 单元更友好;
TileLang warp 专用融合内核：TileLang 是阿里的

● 未登录访客

SMARTFLOW PRO

继续阅读深度解读 + 编辑加注

下方还有 3-5 段深度分析 + Vincent 编辑加注 + 可点击信源，仅 Pro 会员可见
加入机智流 PRO →
¥99 / 季 · 每周 1 篇深度研报 · 飞书+微信群双通道

已是 Pro 但仍被提示？联系反馈

参考来源

本解读由 AI 自动生成 · 模板：产品解读 · 仅供参考，请以原文为准。