Google DeepMind 公布了 Gemini Omni 页面。它的定位很直接:从任意输入创作内容,当前重点从视频开始。
如果说 Nano Banana 更偏向图像生成和编辑,那么 Gemini Omni 更像是面向视频的多模态编辑模型。用户可以通过自然语言一步步修改视频,让后一次修改建立在前一次修改之上,并尽量保持场景、人物、动作和画面逻辑的一致性。
项目页面:https://deepmind.google/models/gemini-omni/
它解决的核心问题
传统视频编辑往往需要时间线、图层、遮罩、关键帧、调色、音轨和大量手动操作。AI 视频生成工具虽然可以从提示词生成片段,但经常存在两个问题:
- 一次生成后不容易精细修改。
- 多轮修改时人物、场景、风格和动作容易漂移。
Gemini Omni 想解决的是第二步:不是只生成一个视频,而是让用户像和剪辑师沟通一样,持续提出修改要求。
页面给出的说法是,它可以通过自然、分步骤的对话编辑任何视频。每次编辑都建立在前一次结果上,目标是保持一个连贯、统一的场景。
主要能力
Gemini Omni 的能力可以分成几类。
第一类是自然语言视频编辑。用户可以直接要求模型改变视频里的审美风格、动作或特效。例如让镜子像液体一样泛起波纹,让人物变成线稿、毛毡玩偶、透明全息线框,或者让整个环境变成 3D voxel art。
第二类是重构动作。它可以改变视频中发生的事情,例如放大手部形成的孔洞、让玩具发出对应动物声音、让建筑灯光随音乐点亮。
第三类是基于参考图像编辑真实视频。用户可以给出图像参考,再要求模型把某种建筑、太阳、飞行器或其它物体放进真实视频场景里。
第四类是多轮编辑保持一致性。页面展示了把小提琴手移动到参考图像环境、让小提琴消失、再把镜头改成越肩角度的连续编辑流程。这比一次性提示词更接近真实创作过程。
第五类是多输入引用。Gemini Omni 可以把图像、文本、视频、音频等输入整合成一个输出,支持风格迁移、动作迁移、角色替换、草图转视频等任务。
为什么它强调世界知识
Google 在页面里反复强调,Gemini Omni 不只是“画面变得真实”,而是结合 Gemini 的世界知识、物理直觉、历史、科学和叙事逻辑。
这点很重要。视频模型如果只追求画面质感,容易出现动作不合逻辑、物体关系混乱、文本和画面不同步的问题。Gemini Omni 的目标是让视频不仅看起来像,还要在故事、物理和语义上更连贯。
页面中的例子包括:
- 大理石在链式反应轨道上滚动。
- 用 claymation 解释蛋白质折叠。
- 用拟物化 stop motion 解释海马体工作方式。
- 让字母和画面里的物体对应出现。
- 让屏幕文字按节奏逐词出现。
这些例子说明它不是单纯的短视频特效工具,而是试图把知识表达、叙事和视听生成放在一起。
和 Veo、Flow、Nano Banana 的关系
从 Google 当前产品线看,Gemini Omni 更像是多模态创作和编辑能力的一层入口。
Veo 更偏视频生成模型本身,强调电影感视频和音频生成。Google Flow 是面向创作者的 AI 创意工作室,适合组织镜头、素材和视频项目。Nano Banana 更偏图像创建和细节编辑。Gemini Omni 则强调“从任意输入到一致输出”的多模态编辑,尤其是视频上的多轮自然语言控制。
简单理解:
- 想生成高质量视频:关注 Veo。
- 想在创作工作流里组织视频项目:关注 Google Flow。
- 想编辑图像:关注 Nano Banana。
- 想用对话方式修改视频,并引用图片、文字、视频、音频:关注 Gemini Omni。
使用入口
页面给出的入口包括:
- Gemini app。
- Google Flow。
- YouTube Shorts。
不过页面也说明,需要 Google AI 订阅,功能会因订阅层级和地区而不同。也就是说,并不是所有用户在所有地区都能立即使用完整能力。
对创作者来说,最值得关注的入口可能是 Google Flow,因为它更接近完整创意工作台。对普通用户来说,Gemini app 和 YouTube Shorts 可能是更低门槛的体验入口。
安全和内容标记
Gemini Omni 页面专门提到安全流程。Gemini Omni Flash 的开发与内部安全、安全责任团队合作,并进行了自动化评估、人工评估、人工红队、自动化红队和发布前伦理安全审查。
内容透明度方面,页面说明通过 Omni 在 Gemini app、Google Flow 或 YouTube 创建或编辑的内容,会包含不可感知的 SynthID 数字水印和 C2PA Content Credentials。用户可以通过 Gemini app 验证内容,后续也会扩展到 Chrome 和搜索。
这部分对视频模型尤其关键。视频生成和视频编辑越真实,越需要内容来源标识、滥用防护和验证工具。
适合哪些人
Gemini Omni 适合几类用户:
- 想用自然语言快速修改视频的内容创作者。
- 需要把草图、参考图、音频、视频素材整合成成片的设计团队。
- 做短视频、广告概念、教育解释视频和产品视觉稿的人。
- 想在 Google Flow 中构建 AI 视频工作流的创作者。
- 关注多模态视频编辑能力边界的开发者和研究者。
但它也不一定适合所有场景。严肃商业片、品牌主视觉、影视制作、产品发布视频仍然需要人工审片、版权检查、事实校对和素材管理。AI 可以明显加速概念生成和初稿迭代,但不应替代最终审核。
怎么看 Gemini Omni
Gemini Omni 的意义在于,它把 AI 视频从“一次性生成”推进到“可对话修改”。这比单纯提升画质更接近真实创作流程。
如果它在多轮编辑、一致性、参考素材控制、音画同步和内容标记上表现稳定,AI 视频工具的使用方式会发生变化:用户不再只写一条长提示词赌结果,而是像导演、剪辑师、设计师一样,逐轮修改场景、动作、风格和叙事。
当前仍要看实际开放范围、价格、地区限制、生成时长、分辨率、版权策略和商用规则。对于普通创作者,最实用的观察点是:它在 Google Flow 和 Gemini app 里能不能稳定完成多轮视频修改。
参考来源: