Imagine 2.0 仍需数周训练,将大幅升级语音和面部一致性
Musk 透露 Imagine 正在频繁小幅改进,2.0 版本还需几周训练,将在语音/音频和面部/细节一致性方面带来重大升级。
查看原文TL;DR · 产品解读
Musk 预告 Imagine 2.0 数周后到来,核心解决 AI 生成中「脸崩」和「声不一致」两大痛点,目标直指短片/多角色创作场景。xAI 的多模态军备竞赛正式进入「一致性」深水区。
深度解读
产品是什么
Imagine 是 Musk 生态下的多模态生成模型(整合于 xAI/Grok 体系),目前以 API 和 Web 界面提供图像生成能力,2.0 版本预计将扩展至语音/音频生成以及更高质量的视频生成。
核心升级点
Musk 明确点名两大痛点:
- 语音/音频一致性:角色跨多段内容时音色、口音、情感基调保持统一,这是当前 TTS 模型的通病
- 面部/细节一致性:多帧生成或多角色场景中,同一人物的面部特征不飘移——这直接影响 AI 短剧、数字人等场景的可用性
这意味着 Imagine 2.0 不再只是「生成一张图」,而是走向「生成一个角色/故事」的多轮可控生成能力。
对比同类竞品
| 产品 | 一致性能力 | 当前定价 | 路线 |
|---|---|---|---|
| Midjourney v6 | 图像一致性优秀,但跨模态(音视频)弱 | $10-$80/月 | 专注高质量图像 |
| Runway Gen-3 | 视频主体一致性较好,音频整合有限
● 未登录访客
SMARTFLOW PRO
继续阅读深度解读 + 编辑加注 下方还有 3-5 段深度分析 + Vincent 编辑加注 + 可点击信源,仅 Pro 会员可见 加入机智流 PRO →¥99 / 季 · 每周 1 篇深度研报 · 飞书+微信群双通道 已是 Pro 但仍被提示?联系反馈 参考来源
本解读由 AI 自动生成 · 模板:产品解读 · 仅供参考,请以原文为准。
|