← 返回资讯
芯片 @togethercompute 2026-06-12

Dan Fu斯坦福客座:Token的一生与近光速LLM解码

解析KV缓存、预填充/解码分离、规模化推理真相;Megakernels通过GPU算子融合逼近解码极限;Parcae揭示循环Transformer膨胀根因及修复方案,还有新扩展定律暗示现有模型仍有余量。

查看原文
本解读由 AI 自动生成 · 模板:事件解读 · 仅供参考,请以原文为准。