← 返回资讯
大模型 @GoogleDeepMind 2026-05-20

Google DeepMind:用 Gemini Omni 创作你的下一个故事

Google DeepMind 推广其 Gemini Omni,并发布演示视频,展示如何用它来创作故事内容。

查看原文
TL;DR · 产品解读

Google DeepMind 推出 Gemini Omni 多模态创作工具,主打故事创作场景。这是 Gemini 系列在多模态交互上的最新迭代,目标用户是内容创作者。目前处于演示阶段,正式发布后可能纳入 Google AI 订阅体系。

深度解读

产品是什么

Gemini Omni 是 Google DeepMind 多模态大模型 Gemini 系列的最新成员,"Omni" 意为全方位支持——可同时处理文本、图像、音频、视频输入,并支持跨模态生成。从官方演示视频来看,它被用于"创作故事"这一具体场景:用户可以输入一个简短的想法或素材,模型整合多模态理解能力,生成连贯的叙事内容。

相比之前的 Gemini,Omni 版本的核心进化在于原生多模态联合推理——不是简单拼接多个单模态模型,而是从架构层面就打通了不同模态的表示空间。这意味着它能更好地理解"图片里角色的情绪"如何影响"故事的情感走向",而非孤立处理。

解决什么问题

传统 AI 写作工具的痛点是:用户脑海中可能有一个画面感、一种声音、甚至一段旋律,但很难用纯文字精准描述给 AI。Gemini Omni 试图解决"模态翻译损耗"问题——你上传一张照片、哼一段旋律、口述一个场景,它就能整合这些线索,生成更贴合你心理预期的故事内容。

目标用户明确指向创意内容创作者:短视频脚本作者、绘本创作者、游戏叙事设计师、有内容生产需求的营销团队。

对比同类竞品

参考来源
  1. Google DeepMind 推文原文 · 2026-05-20
  2. Gemini 模型系列官方介绍 · 2024-12-01
本解读由 AI 自动生成 · 模板:产品解读 · 仅供参考,请以原文为准。