← 返回资讯
产品发布 @Alibaba_Qwen 2026-04-29

@Alibaba_Qwen:开源 FlashQLA 高性能线性注意力 Kernel

通义千问推出基于 TileLang 的 FlashQLA:前向 2-3 倍、后向 2 倍加速,专为端侧 Agentic AI 设计,在小模型、长上下文与张量并行场景下收益尤为明显。

查看原文
TL;DR · 产品解读

通义千问开源 FlashQLA,一种基于 TileLang 的线性注意力 Kernel,在前向计算上带来 2-3 倍、后向 2 倍的加速。它瞄准的是端侧 Agentic AI 场景——小模型 + 长上下文 + 张量并行——这意味着在手机、汽车座舱、机器人等边缘设备上跑更复杂的 AI Agent 有了新的性能基础。

深度解读

产品是什么

FlashQLA 是通义千问开源的高性能线性注意力(Linear Attention)Kernel,构建于 TileLang 抽象层之上。它的核心目标不是取代标准 Softmax Attention,而是在需要线性复杂度(O(N) 而非 O(N²))的场景下提供极致效率。官方公布的 benchmark 数据:前向传播2-3 倍加速,后向传播2 倍加速

解决什么问题

标准 Transformer 的 Attention 计算量随上下文长度二次增长,这在端侧设备(手机 SoC、座舱芯片、机器人控制器)上是致命瓶颈。FlashQLA 通过线性注意力机制,将计算复杂度降为线性,同时借助 TileLang 的硬件级 Tile 调度,最大化利用端侧芯片的算力。官方特别点名三个受益场景:小模型(≤7B)长上下文张量并行

TileLang 的角色

TileLang 是一个 Tile 级别的算子描述语言,FlashQLA 通过它实现了对不同硬件后端(GPU / NPU)

未登录访客
SMARTFLOW PRO

继续阅读深度解读 + 编辑加注

下方还有 3-5 段深度分析 + Vincent 编辑加注 + 可点击信源,仅 Pro 会员可见

加入机智流 PRO →

¥99 / 季 · 每周 1 篇深度研报 · 飞书+微信群双通道

已是 Pro 但仍被提示?联系反馈

参考来源
  1. @Alibaba_Qwen: 开源 FlashQLA 高性能线性注意力 Kernel · 2026-04-29
  2. FlashAttention official repository · 2024-01-01
  3. Mamba: Linear-Time Sequence Modeling with Selective State Spaces · 2023-12-01
本解读由 AI 自动生成 · 模板:产品解读 · 仅供参考,请以原文为准。