Together AI:Parcae 架构让 770M 模型逼近 1.3B Transformer 质量
Together AI 的 VP of Kernels Dan Fu 与 UCSD 团队发布 Parcae 架构,首次稳定实现激活值多次通过同一层,让 770M 参数模型达到 1.3B Transformer 质量——非压缩路径,而是全新架构。
查看原文本解读由 AI 自动生成 · 模板:事件解读 · 仅供参考,请以原文为准。
Together AI 的 VP of Kernels Dan Fu 与 UCSD 团队发布 Parcae 架构,首次稳定实现激活值多次通过同一层,让 770M 参数模型达到 1.3B Transformer 质量——非压缩路径,而是全新架构。
查看原文