Google · Gemini Omni

Gemini Omni:依托 Gemini 世界知识的多模态 AI 视频

Gemini Omni 是 Google 面向多模态视频生成的模型:把 Gemini 的语言理解、世界知识与物理推理能力带入视频创作,支持以文字、图片或参考视频作为输入,在 Yevideo 上一条链路完成文生视频、图生视频、视频生视频与 AI 视频剪辑。相比「只会动起来的画面」,Gemini Omni 更强调场景是否合理、运动是否可信、提示词是否被准确执行——适合广告概念片、产品演示、社媒短视频与需要多素材参考的复杂镜头。

世界知识 + 物理推理:画面不只好看,还要「说得通」

很多 AI 视频的问题不在分辨率,而在逻辑:物体违反重力、交互穿帮、场景元素与描述对不上。Gemini Omni 依托 Gemini 的世界知识与物理推理,在复杂环境、多主体互动与非常规创意里,更容易生成「看得懂、信得过」的动态画面。写提示时把因果关系、材质与运动方向写清楚,比堆形容词更能发挥这一优势。

多模态参考:最多 7 张图 + 1 段视频,按配额灵活组合

Gemini Omni 采用配额制管理参考素材:每张图片占 1 个单位,每段参考视频占 2 个单位,图片数 + 视频数×2 不超过 7。你可以只用文字起步,也可以上传 1–7 张参考图锁定角色与场景,或在视频生视频 / AI 剪辑里加入一段参考视频(最长 30 秒)控制运镜与节奏。同一模型 ID 贯穿四个工作台,换模式不必换账号或换工具。

最高 4K 输出:从试创意到可展示样片

Gemini Omni 支持 720p、1080p 与 4K 分辨率,无参考视频输入时可选择 4、6、8、10 秒时长,并支持 16:9 与 9:16 画幅。常见做法是先用 720p、较短时长快速验证气质与动作,满意后再升 1080p 或 4K 做交付级样片——在 Yevideo 生成前页面会提示预估积分,便于控制试错成本。

文生视频 · Gemini Omni

文生视频:把「谁 / 在哪 / 怎么动」写成可执行的镜头

无需参考图,直接用提示词生成动态视频。Gemini Omni 文生视频适合故事叙述、概念验证与营销策划——当创意还停在文字阶段,这是最快「演」出来的方式。建议把主体、场景、动作顺序、光线与镜头类型分开写,避免互相打架的描述。

  • 用短句分行:主体 / 场景 / 动作 / 光线 / 镜头运动
  • 需要复杂交互时,用「先……再……最后……」交代时间顺序
  • 涉及真实世界常识(天气、材质、尺度)时写具体一点,便于模型调用世界知识
  • 先用 720p、8 秒试方向,满意再升分辨率或加长
图生视频 · Gemini Omni

图生视频:1–7 张参考图,让静态主视觉动起来

图生视频至少需要 1 张参考图,最多 7 张。Gemini Omni 在保持原图气质与主体轮廓的前提下补全运动,适合产品展示、角色动画与已有 KV 扩展为动态样片。文字侧侧重「怎么动、镜头跟谁」,避免重复画面里已经写明的信息。

  • 上传主体突出、边缘干净的参考图;多图时可分别说明每张图的作用
  • 描述运动方向、幅度与节奏:转头、迈步、镜头缓慢推进等
  • 需要保留外观时,明确「不改变五官/产品轮廓」,减少漂移
  • 配额:图片数 + 视频数×2 ≤ 7,规划好参考素材组合
视频生视频 · Gemini Omni

视频生视频:参考视频 + 多图,生成新镜头而非简单滤镜

Gemini Omni 视频生视频支持可选参考视频(占 2 配额)与 1–7 张参考图组合输入。适合在保留运镜节奏或动作骨架的同时,替换风格、环境或主体气质——比纯风格迁移更强调「按你的分镜意图出片」。有参考视频时,输出时长由模型自动确定,工作台会隐藏时长选项。

  • 先确定参考视频主要提供什么:运镜、动作还是节奏
  • 再用文字说明希望保留与希望改变的部分
  • 参考视频最长 30 秒、单文件 ≤100MB;与图片合计不超过配额 7
  • 大幅度改风格时,建议分步:先稳主体,再加强运动或换环境
AI 视频剪辑 · Gemini Omni

AI 视频剪辑:用自然语言改光线、换背景、修细节

AI 视频剪辑侧重在已有片段上修改,而不是从零生成全新叙事。上传参考视频并配合可选参考图,用自然语言描述修改意图——调光线、换背景、局部替换等。与视频生视频的差异在于产品定位:剪辑台面向「修成片」,视频生视频面向「参考旧片生成新片」。

  • 一次聚焦一类修改(光线 / 背景 / 主体),成功率更高
  • 用时间顺序描述:开场提亮、中段换窗外为夜景等
  • 局部修改写清范围:只动背景不动人物,或只动手部不动脸
  • 有参考视频时时长由模型决定,无需手动选秒数

在 Yevideo 工作台选择 Gemini Omni,即可体验文生、图生、视频生视频与 AI 剪辑四条链路。

Gemini Omni 适合哪些人?能给他们带来什么价值?

品牌创意、产品营销、自媒体、独立作者——需要多模态参考、复杂场景可信、一条链路从试创意到 4K 样片,就选 Gemini Omni。

品牌与创意:Gemini Omni 在 Yevideo 的典型用法示意

复杂创意也能「演」得合理

广告与概念片常需要违背日常经验的画面,但又要让观众信。Gemini Omni 的世界知识与物理推理,帮助奇幻创意在动态中仍保持可读性与说服力,减少「一眼 AI 穿帮」。

常见问题解答

Gemini Omni 是什么?和 Google Gemini 有什么关系?

Gemini Omni 是 Google 基于 Gemini 多模态能力推出的 AI 视频生成模型,强调世界知识、物理推理与多模态参考输入。Yevideo 通过接口接入该模型,你可以在浏览器工作台直接体验,无需自行部署 API。

Gemini Omni 主要强在哪?适合做什么内容?

三点最为突出:1. Gemini 世界知识与物理推理,复杂场景更可信;2. 灵活的多模态参考(最多 7 张图 + 1 段视频);3. 四工作台共用同一模型,从文生到剪辑可连续创作。适合广告小样、产品演示、社媒短视频、概念分镜与需要多素材对齐的镜头。

参考图和参考视频的配额怎么算?

总配额为 7:每张图片占 1,每段参考视频占 2。例如上传 1 段视频(占 2)后,最多还可上传 5 张图;若不上传视频,最多 7 张图。图生视频至少需 1 张图。

怎么写提示词,成片会更稳定?

建议用「主体 + 场景 + 动作 + 镜头 + 氛围」结构,分行写清;减少互相矛盾的光线或运镜描述。有参考图时,文字侧重运动与镜头,少重复画面已有信息。有参考视频时,说明参考片提供的是运镜还是动作,以及你想改什么。

和 Seedance 2.0、Veo 3.1 相比该怎么选?

没有万能最强,只有更贴合任务。Gemini Omni 的优势在于 Gemini 世界知识与多模态配额组合;若你更看重某条厂商的原生音频工作流或已有固定管线,可并行试生成对比。常见做法:同一分镜用 Gemini Omni 与备选模型各跑一版,按成片气质与积分成本选型。

在 Yevideo 使用 Gemini Omni 如何计费?

按模型、分辨率、时长以及是否有参考视频输入等综合计价,生成前页面会显示预估积分。建议先用 720p、较短时长试方向;有参考视频时输出时长由模型决定,计费维度以站内实时规则为准。任务异常失败时,额度不会扣除。

Yevideo 灵感