通义千问开源 FlashQLA:端侧 Agent 用的高性能线性注意力内核
Qwen 团队发布 FlashQLA,基于 TileLang 构建的高性能线性注意力内核,前向加速 2-3 倍、反向加速 2 倍,专为个人设备上的 Agent 工作负载设计,含门驱动的卡内 CP、硬件友好代数重构、TileLang warp 专用融合内核三大机制。
查看原文TL;DR · 产品解读
通义千问开源 FlashQLA,专为端侧 Agent 设计的高性能线性注意力内核,前向 2-3 倍、反向 2 倍加速。瞄准个人设备上的本地 AI 推理市场,是阿里在端侧基础设施的关键落子。
深度解读
产品是什么
FlashQLA 是通义千问团队基于 TileLang 框架开发的高性能线性注意力内核,已在 GitHub 开源(Apache 2.0)。核心能力是:在端侧设备(手机、PC)上将线性注意力机制的前向传播加速 2-3 倍,反向传播加速 2 倍。这意味着更低的延迟和功耗。
解决什么问题
传统 Transformer 的 O(n²) 注意力计算在端侧几乎是死路一条——手机 SoC 的算力和内存带宽根本扛不住。线性注意力将复杂度降到 O(n),但之前缺乏针对硬件特性深度优化的实现。FlashQLA 正是来解决这个「能用但不好用」的问题。
三大技术机制是看点:
- 门驱动的卡内(intra-chip)CP:类似 FlashAttention 的分块思想,但针对线性注意力的状态传递做了卡内通信优化;
- 硬件友好代数重构:对矩阵运算重排,让 SIMD/NEON 单元更友好;
- TileLang warp 专用融合内核:TileLang 是阿里的
● 未登录访客SMARTFLOW PRO
继续阅读深度解读 + 编辑加注
下方还有 3-5 段深度分析 + Vincent 编辑加注 + 可点击信源,仅 Pro 会员可见
加入机智流 PRO →¥99 / 季 · 每周 1 篇深度研报 · 飞书+微信群双通道
已是 Pro 但仍被提示?联系反馈
参考来源
- 通义千问官宣 FlashQLA 开源 · 2026-04-29
- FlashQLA GitHub 仓库 · 2026-04-29
- TileLang: A Language for Efficient Tensor Program Synthesis · 2024-05-02
本解读由 AI 自动生成 · 模板:产品解读 · 仅供参考,请以原文为准。