Google DeepMind 推出 Gemini Omni 多模态创作工具,主打故事创作场景。这是 Gemini 系列在多模态交互上的最新迭代,目标用户是内容创作者。目前处于演示阶段,正式发布后可能纳入 Google AI 订阅体系。
产品是什么
Gemini Omni 是 Google DeepMind 多模态大模型 Gemini 系列的最新成员,"Omni" 意为全方位支持——可同时处理文本、图像、音频、视频输入,并支持跨模态生成。从官方演示视频来看,它被用于"创作故事"这一具体场景:用户可以输入一个简短的想法或素材,模型整合多模态理解能力,生成连贯的叙事内容。
相比之前的 Gemini,Omni 版本的核心进化在于原生多模态联合推理——不是简单拼接多个单模态模型,而是从架构层面就打通了不同模态的表示空间。这意味着它能更好地理解"图片里角色的情绪"如何影响"故事的情感走向",而非孤立处理。
解决什么问题
传统 AI 写作工具的痛点是:用户脑海中可能有一个画面感、一种声音、甚至一段旋律,但很难用纯文字精准描述给 AI。Gemini Omni 试图解决"模态翻译损耗"问题——你上传一张照片、哼一段旋律、口述一个场景,它就能整合这些线索,生成更贴合你心理预期的故事内容。
目标用户明确指向创意内容创作者:短视频脚本作者、绘本创作者、游戏叙事设计师、有内容生产需求的营销团队。
对比同类竞品
- GPT-4o(OpenAI)
● 未登录访客SMARTFLOW PRO
继续阅读深度解读 + 编辑加注
下方还有 3-5 段深度分析 + Vincent 编辑加注 + 可点击信源,仅 Pro 会员可见
加入机智流 PRO →¥99 / 季 · 每周 1 篇深度研报 · 飞书+微信群双通道
已是 Pro 但仍被提示?联系反馈
- Google DeepMind 推文原文 · 2026-05-20
- Gemini 模型系列官方介绍 · 2024-12-01