币界网消息,Qwen团队开源的FlashQLA是一套针对GDN(gated delta network,Qwen3-next / 3.5 / 3.6全系列使用的线性注意力层)的高性能算子库。在H200上实测,前向计算速度比Fla Triton kernel快2-3倍,反向计算速度快2倍在TP8场景中,前向计算速度最高可达5.33倍。提速的核心在于利用GDN门控值的指数衰减特性实现卡内自动上下文并行(autocp),从而跳过传统方法中计算校正矩阵的步骤。系统会根据batch size、头数和序列长度自动判断是否启用CP,无需手动配置。

此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论