Google · Gemini Omni
Gemini Omni:依托 Gemini 世界知识的多模态 AI 视频
Gemini Omni 是 Google 面向多模态视频生成的模型:把 Gemini 的语言理解、世界知识与物理推理能力带入视频创作,支持以文字、图片或参考视频作为输入,在 Yevideo 上一条链路完成文生视频、图生视频、视频生视频与 AI 视频剪辑。相比「只会动起来的画面」,Gemini Omni 更强调场景是否合理、运动是否可信、提示词是否被准确执行——适合广告概念片、产品演示、社媒短视频与需要多素材参考的复杂镜头。
世界知识 + 物理推理:画面不只好看,还要「说得通」
很多 AI 视频的问题不在分辨率,而在逻辑:物体违反重力、交互穿帮、场景元素与描述对不上。Gemini Omni 依托 Gemini 的世界知识与物理推理,在复杂环境、多主体互动与非常规创意里,更容易生成「看得懂、信得过」的动态画面。写提示时把因果关系、材质与运动方向写清楚,比堆形容词更能发挥这一优势。
多模态参考:最多 7 张图 + 1 段视频,按配额灵活组合
Gemini Omni 采用配额制管理参考素材:每张图片占 1 个单位,每段参考视频占 2 个单位,图片数 + 视频数×2 不超过 7。你可以只用文字起步,也可以上传 1–7 张参考图锁定角色与场景,或在视频生视频 / AI 剪辑里加入一段参考视频(最长 30 秒)控制运镜与节奏。同一模型 ID 贯穿四个工作台,换模式不必换账号或换工具。
最高 4K 输出:从试创意到可展示样片
Gemini Omni 支持 720p、1080p 与 4K 分辨率,无参考视频输入时可选择 4、6、8、10 秒时长,并支持 16:9 与 9:16 画幅。常见做法是先用 720p、较短时长快速验证气质与动作,满意后再升 1080p 或 4K 做交付级样片——在 Yevideo 生成前页面会提示预估积分,便于控制试错成本。
文生视频:把「谁 / 在哪 / 怎么动」写成可执行的镜头
无需参考图,直接用提示词生成动态视频。Gemini Omni 文生视频适合故事叙述、概念验证与营销策划——当创意还停在文字阶段,这是最快「演」出来的方式。建议把主体、场景、动作顺序、光线与镜头类型分开写,避免互相打架的描述。
- 用短句分行:主体 / 场景 / 动作 / 光线 / 镜头运动
- 需要复杂交互时,用「先……再……最后……」交代时间顺序
- 涉及真实世界常识(天气、材质、尺度)时写具体一点,便于模型调用世界知识
- 先用 720p、8 秒试方向,满意再升分辨率或加长
图生视频:1–7 张参考图,让静态主视觉动起来
图生视频至少需要 1 张参考图,最多 7 张。Gemini Omni 在保持原图气质与主体轮廓的前提下补全运动,适合产品展示、角色动画与已有 KV 扩展为动态样片。文字侧侧重「怎么动、镜头跟谁」,避免重复画面里已经写明的信息。
- 上传主体突出、边缘干净的参考图;多图时可分别说明每张图的作用
- 描述运动方向、幅度与节奏:转头、迈步、镜头缓慢推进等
- 需要保留外观时,明确「不改变五官/产品轮廓」,减少漂移
- 配额:图片数 + 视频数×2 ≤ 7,规划好参考素材组合
视频生视频:参考视频 + 多图,生成新镜头而非简单滤镜
Gemini Omni 视频生视频支持可选参考视频(占 2 配额)与 1–7 张参考图组合输入。适合在保留运镜节奏或动作骨架的同时,替换风格、环境或主体气质——比纯风格迁移更强调「按你的分镜意图出片」。有参考视频时,输出时长由模型自动确定,工作台会隐藏时长选项。
- 先确定参考视频主要提供什么:运镜、动作还是节奏
- 再用文字说明希望保留与希望改变的部分
- 参考视频最长 30 秒、单文件 ≤100MB;与图片合计不超过配额 7
- 大幅度改风格时,建议分步:先稳主体,再加强运动或换环境
AI 视频剪辑:用自然语言改光线、换背景、修细节
AI 视频剪辑侧重在已有片段上修改,而不是从零生成全新叙事。上传参考视频并配合可选参考图,用自然语言描述修改意图——调光线、换背景、局部替换等。与视频生视频的差异在于产品定位:剪辑台面向「修成片」,视频生视频面向「参考旧片生成新片」。
- 一次聚焦一类修改(光线 / 背景 / 主体),成功率更高
- 用时间顺序描述:开场提亮、中段换窗外为夜景等
- 局部修改写清范围:只动背景不动人物,或只动手部不动脸
- 有参考视频时时长由模型决定,无需手动选秒数
在 Yevideo 工作台选择 Gemini Omni,即可体验文生、图生、视频生视频与 AI 剪辑四条链路。
Gemini Omni 适合哪些人?能给他们带来什么价值?
品牌创意、产品营销、自媒体、独立作者——需要多模态参考、复杂场景可信、一条链路从试创意到 4K 样片,就选 Gemini Omni。
.png)
复杂创意也能「演」得合理
广告与概念片常需要违背日常经验的画面,但又要让观众信。Gemini Omni 的世界知识与物理推理,帮助奇幻创意在动态中仍保持可读性与说服力,减少「一眼 AI 穿帮」。
常见问题解答
Gemini Omni 是什么?和 Google Gemini 有什么关系?
Gemini Omni 是 Google 基于 Gemini 多模态能力推出的 AI 视频生成模型,强调世界知识、物理推理与多模态参考输入。Yevideo 通过接口接入该模型,你可以在浏览器工作台直接体验,无需自行部署 API。
Gemini Omni 主要强在哪?适合做什么内容?
三点最为突出:1. Gemini 世界知识与物理推理,复杂场景更可信;2. 灵活的多模态参考(最多 7 张图 + 1 段视频);3. 四工作台共用同一模型,从文生到剪辑可连续创作。适合广告小样、产品演示、社媒短视频、概念分镜与需要多素材对齐的镜头。
参考图和参考视频的配额怎么算?
总配额为 7:每张图片占 1,每段参考视频占 2。例如上传 1 段视频(占 2)后,最多还可上传 5 张图;若不上传视频,最多 7 张图。图生视频至少需 1 张图。
怎么写提示词,成片会更稳定?
建议用「主体 + 场景 + 动作 + 镜头 + 氛围」结构,分行写清;减少互相矛盾的光线或运镜描述。有参考图时,文字侧重运动与镜头,少重复画面已有信息。有参考视频时,说明参考片提供的是运镜还是动作,以及你想改什么。
和 Seedance 2.0、Veo 3.1 相比该怎么选?
没有万能最强,只有更贴合任务。Gemini Omni 的优势在于 Gemini 世界知识与多模态配额组合;若你更看重某条厂商的原生音频工作流或已有固定管线,可并行试生成对比。常见做法:同一分镜用 Gemini Omni 与备选模型各跑一版,按成片气质与积分成本选型。
在 Yevideo 使用 Gemini Omni 如何计费?
按模型、分辨率、时长以及是否有参考视频输入等综合计价,生成前页面会显示预估积分。建议先用 720p、较短时长试方向;有参考视频时输出时长由模型决定,计费维度以站内实时规则为准。任务异常失败时,额度不会扣除。
.webp)
.webp)
.webp)
.webp)
.png)
.png)
.png)