vLLM 祝贺 Google DeepMind 发布 DiffusionGemma,首个原生支持的…
26B 参数基于 Gemma4,支持块级并行去噪,单卡 H200(FP8)吞吐量超 1200 token/s,模型检查点已在 RedHat AI Hub 提供
查看原文本解读由 AI 自动生成 · 模板:事件解读 · 仅供参考,请以原文为准。
26B 参数基于 Gemma4,支持块级并行去噪,单卡 H200(FP8)吞吐量超 1200 token/s,模型检查点已在 RedHat AI Hub 提供
查看原文