大模型 @Google 2026-05-22

Google 发布 Gemini Omni：像聊天一样生成和编辑视频

Google 推出新一代多模态视频模型 Gemini Omni（昵称「Nano Banana for video」），让用户通过自然对话即可完成视频的创作与编辑。

TL;DR · 产品解读

Gemini Omni 将视频生成从「专业工具操作」进化到「自然语言对话」，Google 在视频 AI 赛道加速追赶 Runway/Pika，目标用户从专业创作者下沉到普通消费者。

深度解读

Google 于 2026 年 5 月 22 日发布 Gemini Omni（内部代号「Nano Banana for video」），这是一个支持通过自然对话生成和编辑视频的多模态模型。与传统的视频编辑软件需要用户掌握时间轴操作、关键帧设置等复杂技能不同，Gemini Omni 的核心交互范式是对话式：用户像跟助手聊天一样描述需求，模型即可理解意图并执行视频创作或修改。

产品定位与能力边界

从现有信息推断，Gemini Omni 具备以下能力层次：

视频生成：通过文本描述或参考图片生成视频片段
视频编辑：支持对已有视频进行局部修改（如替换对象、调整风格、延长/缩短片段）
多模态理解：结合 Gemini 系列的视觉-语言联合建模，可能支持「参考某个视频片段的风格，应用到另一段」等跨模态指令

需要注意的是，Google 尚未公布模型的具体技术参数（帧率、分辨率、时长限制、生成分辨率等），这些细节对于评估其实际可用性至关重要。当前的悬念在于：Gemini Omni 是端到端生成的原生模型，还是基于现有视频生成后处理层的封装？

对

● 未登录访客

SMARTFLOW PRO

继续阅读深度解读 + 编辑加注

下方还有 3-5 段深度分析 + Vincent 编辑加注 + 可点击信源，仅 Pro 会员可见
加入机智流 PRO →
¥99 / 季 · 每周 1 篇深度研报 · 飞书+微信群双通道

已是 Pro 但仍被提示？联系反馈

参考来源

本解读由 AI 自动生成 · 模板：产品解读 · 仅供参考，请以原文为准。