Google · Gemini Omni

Gemini Omni:依託 Gemini 世界知識的多模態 AI 視頻

Gemini Omni 是 Google 面向多模態視頻生成的模型:把 Gemini 的語言理解、世界知識與物理推理能力帶入視頻創作,支持以文字、圖片或參考視頻作爲輸入,在 Yevideo 上一條鏈路完成文生視頻、圖生視頻、視頻生視頻與 AI 視頻剪輯。相比「只會動起來的畫面」,Gemini Omni 更強調場景是否合理、運動是否可信、提示詞是否被準確執行——適合廣告概念片、產品演示、社媒短視頻與需要多素材參考的複雜鏡頭。

世界知識 + 物理推理:畫面不只好看,還要「說得通」

很多 AI 視頻的問題不在分辨率,而在邏輯:物體違反重力、交互穿幫、場景元素與描述對不上。Gemini Omni 依託 Gemini 的世界知識與物理推理,在複雜環境、多主體互動與非常規創意裏,更容易生成「看得懂、信得過」的動態畫面。寫提示時把因果關係、材質與運動方向寫清楚,比堆形容詞更能發揮這一優勢。

多模態參考:最多 7 張圖 + 1 段視頻,按配額靈活組合

Gemini Omni 採用配額制管理參考素材:每張圖片佔 1 個單位,每段參考視頻佔 2 個單位,圖片數 + 視頻數×2 不超過 7。你可以只用文字起步,也可以上傳 1–7 張參考圖鎖定角色與場景,或在視頻生視頻 / AI 剪輯里加入一段參考視頻(最長 30 秒)控制運鏡與節奏。同一模型 ID 貫穿四個工作臺,換模式不必換賬號或換工具。

最高 4K 輸出:從試創意到可展示樣片

Gemini Omni 支持 720p、1080p 與 4K 分辨率,無參考視頻輸入時可選擇 4、6、8、10 秒時長,並支持 16:9 與 9:16 畫幅。常見做法是先用 720p、較短時長快速驗證氣質與動作,滿意後再升 1080p 或 4K 做交付級樣片——在 Yevideo 生成前頁面會提示預估積分,便於控制試錯成本。

文生視頻 · Gemini Omni

文生視頻:把「誰 / 在哪 / 怎麼動」寫成可執行的鏡頭

無需參考圖,直接用提示詞生成動態視頻。Gemini Omni 文生視頻適合故事敘述、概念驗證與營銷策劃——當創意還停在文字階段,這是最快「演」出來的方式。建議把主體、場景、動作順序、光線與鏡頭類型分開寫,避免互相打架的描述。

  • 用短句分行:主體 / 場景 / 動作 / 光線 / 鏡頭運動
  • 需要複雜交互時,用「先……再……最後……」交代時間順序
  • 涉及真實世界常識(天氣、材質、尺度)時寫具體一點,便於模型調用世界知識
  • 先用 720p、8 秒試方向,滿意再升分辨率或加長
圖生視頻 · Gemini Omni

圖生視頻:1–7 張參考圖,讓靜態主視覺動起來

圖生視頻至少需要 1 張參考圖,最多 7 張。Gemini Omni 在保持原圖氣質與主體輪廓的前提下補全運動,適合產品展示、角色動畫與已有 KV 擴展爲動態樣片。文字側側重「怎麼動、鏡頭跟誰」,避免重複畫面裏已經寫明的信息。

  • 上傳主體突出、邊緣乾淨的參考圖;多圖時可分別說明每張圖的作用
  • 描述運動方向、幅度與節奏:轉頭、邁步、鏡頭緩慢推進等
  • 需要保留外觀時,明確「不改變五官/產品輪廓」,減少漂移
  • 配額:圖片數 + 視頻數×2 ≤ 7,規劃好參考素材組合
視頻生視頻 · Gemini Omni

視頻生視頻:參考視頻 + 多圖,生成新鏡頭而非簡單濾鏡

Gemini Omni 視頻生視頻支持可選參考視頻(佔 2 配額)與 1–7 張參考圖組合輸入。適合在保留運鏡節奏或動作骨架的同時,替換風格、環境或主體氣質——比純風格遷移更強調「按你的分鏡意圖出片」。有參考視頻時,輸出時長由模型自動確定,工作臺會隱藏時長選項。

  • 先確定參考視頻主要提供什麼:運鏡、動作還是節奏
  • 再用文字說明希望保留與希望改變的部分
  • 參考視頻最長 30 秒、單文件 ≤100MB;與圖片合計不超過配額 7
  • 大幅度改風格時,建議分步:先穩主體,再加強運動或換環境
AI 視頻剪輯 · Gemini Omni

AI 視頻剪輯:用自然語言改光線、換背景、修細節

AI 視頻剪輯側重在已有片段上修改,而不是從零生成全新敘事。上傳參考視頻並配合可選參考圖,用自然語言描述修改意圖——調光線、換背景、局部替換等。與視頻生視頻的差異在於產品定位:剪輯檯面向「修成片」,視頻生視頻面向「參考舊片生成新片」。

  • 一次聚焦一類修改(光線 / 背景 / 主體),成功率更高
  • 用時間順序描述:開場提亮、中段換窗外爲夜景等
  • 局部修改寫清範圍:只動背景不動人物,或只動手部不動臉
  • 有參考視頻時時長由模型決定,無需手動選秒數

在 Yevideo 工作臺選擇 Gemini Omni,即可體驗文生、圖生、視頻生視頻與 AI 剪輯四條鏈路。

Gemini Omni 適合哪些人?能給他們帶來什麼價值?

品牌創意、產品營銷、自媒體、獨立作者——需要多模態參考、複雜場景可信、一條鏈路從試創意到 4K 樣片,就選 Gemini Omni。

品牌與創意:Gemini Omni 在 Yevideo 的典型用法示意

複雜創意也能「演」得合理

廣告與概念片常需要違背日常經驗的畫面,但又要讓觀衆信。Gemini Omni 的世界知識與物理推理,幫助奇幻創意在動態中仍保持可讀性與說服力,減少「一眼 AI 穿幫」。

常見問題解答

Gemini Omni 是什麼?和 Google Gemini 有什麼關係?

Gemini Omni 是 Google 基於 Gemini 多模態能力推出的 AI 視頻生成模型,強調世界知識、物理推理與多模態參考輸入。Yevideo 通過接口接入該模型,你可以在瀏覽器工作臺直接體驗,無需自行部署 API。

Gemini Omni 主要強在哪?適合做什麼內容?

三點最爲突出:1. Gemini 世界知識與物理推理,複雜場景更可信;2. 靈活的多模態參考(最多 7 張圖 + 1 段視頻);3. 四工作臺共用同一模型,從文生到剪輯可連續創作。適合廣告小樣、產品演示、社媒短視頻、概念分鏡與需要多素材對齊的鏡頭。

參考圖和參考視頻的配額怎麼算?

總配額爲 7:每張圖片佔 1,每段參考視頻佔 2。例如上傳 1 段視頻(佔 2)後,最多還可上傳 5 張圖;若不上傳視頻,最多 7 張圖。圖生視頻至少需 1 張圖。

怎麼寫提示詞,成片會更穩定?

建議用「主體 + 場景 + 動作 + 鏡頭 + 氛圍」結構,分行寫清;減少互相矛盾的光線或運鏡描述。有參考圖時,文字側重運動與鏡頭,少重複畫面已有信息。有參考視頻時,說明參考片提供的是運鏡還是動作,以及你想改什麼。

和 Seedance 2.0、Veo 3.1 相比該怎麼選?

沒有萬能最強,只有更貼合任務。Gemini Omni 的優勢在於 Gemini 世界知識與多模態配額組合;若你更看重某條廠商的原生音頻工作流或已有固定管線,可並行試生成對比。常見做法:同一分鏡用 Gemini Omni 與備選模型各跑一版,按成片氣質與積分成本選型。

在 Yevideo 使用 Gemini Omni 如何計費?

按模型、分辨率、時長以及是否有參考視頻輸入等綜合計價,生成前頁面會顯示預估積分。建議先用 720p、較短時長試方向;有參考視頻時輸出時長由模型決定,計費維度以站內實時規則爲準。任務異常失敗時,額度不會扣除。

Yevideo 靈感