← 返回资讯
产品发布 @Alibaba_Qwen 2026-04-29

通义千问开源 FlashQLA:端侧 Agent 用的高性能线性注意力内核

Qwen 团队发布 FlashQLA,基于 TileLang 构建的高性能线性注意力内核,前向加速 2-3 倍、反向加速 2 倍,专为个人设备上的 Agent 工作负载设计,含门驱动的卡内 CP、硬件友好代数重构、TileLang warp 专用融合内核三大机制。

查看原文
TL;DR · 产品解读

通义千问开源 FlashQLA,专为端侧 Agent 设计的高性能线性注意力内核,前向 2-3 倍、反向 2 倍加速。瞄准个人设备上的本地 AI 推理市场,是阿里在端侧基础设施的关键落子。

深度解读

产品是什么

FlashQLA 是通义千问团队基于 TileLang 框架开发的高性能线性注意力内核,已在 GitHub 开源(Apache 2.0)。核心能力是:在端侧设备(手机、PC)上将线性注意力机制的前向传播加速 2-3 倍,反向传播加速 2 倍。这意味着更低的延迟和功耗。

解决什么问题

传统 Transformer 的 O(n²) 注意力计算在端侧几乎是死路一条——手机 SoC 的算力和内存带宽根本扛不住。线性注意力将复杂度降到 O(n),但之前缺乏针对硬件特性深度优化的实现。FlashQLA 正是来解决这个「能用但不好用」的问题。

三大技术机制是看点:

参考来源
  1. 通义千问官宣 FlashQLA 开源 · 2026-04-29
  2. FlashQLA GitHub 仓库 · 2026-04-29
  3. TileLang: A Language for Efficient Tensor Program Synthesis · 2024-05-02
本解读由 AI 自动生成 · 模板:产品解读 · 仅供参考,请以原文为准。