Google · Gemini Omni
Gemini Omni: Multimodales KI-Video mit Gemini-Weltwissen
Gemini Omni bringt Sprachverständnis, Weltwissen und Physik-Reasoning von Gemini in die Videoproduktion. Auf Yevideo nutzen Sie Text-zu-Video, Bild-zu-Video, Video-zu-Video und KI-Videobearbeitung mit einem Modell — ideal für Ads, Produktdemos, Social-Clips und Shots mit mehreren Referenzen.
World knowledge + physics: scenes that make sense
Viele KI-Videos scheitern an der Logik — Schwerkraft bricht, Interaktionen schneiden sich, Elemente passen nicht zum Brief. Gemini Omni nutzt Gemini-Weltwissen und Physik-Reasoning, damit komplexe Umgebungen und Multi-Subjekt-Bewegung glaubwürdiger bleiben. Beschreiben Sie Ursache, Material und Bewegungsrichtung statt Adjektive zu stapeln.
Multimodale Referenzen: bis zu 7 Bilder + 1 Video unter einem Kontingent
Jedes Bild kostet 1 Kontingenteinheit; jedes Referenzvideo 2; Bilder + Videos×2 ≤ 7. Start nur mit Text, Look mit 1–7 Bildern fixieren oder Referenzclip (≤30 s) für Kamera und Rhythmus bei Video-zu-Video oder KI-Schnitt — alle vier Workbenches teilen dieselbe Modell-ID.
Up to 4K: from quick tests to presentable samples
Wählen Sie 720p, 1080p oder 4K; ohne Referenzvideo 4, 6, 8 oder 10 Sekunden und 16:9 oder 9:16. Üblicher Workflow: kurze 720p-Clips für Stimmung und Bewegung, dann höhere Auflösung für Delivery. Geschätzte Credits vor der Generierung.
Text-zu-Video: wer / wo / wie in ausführbare Shots übersetzen
Kein Referenzbild nötig — Szene beschreiben und Bewegung erzeugen. Ideal für Story-Beats, Konzeptvalidierung und Marketing-Ideen noch im Text. Trennen Sie Subjekt, Szene, Aktionsfolge, Licht und Kamera in kurzen Zeilen; vermeiden Sie widersprüchliche Beschreibungen.
- Use short lines: subject / scene / action / light / camera move
- Bei komplexen Beats: zuerst… dann… schließlich… für die Zeitfolge
- Be specific about real-world cues (weather, materials, scale)
- Zuerst 720p und 8 s testen, dann Auflösung oder Länge erhöhen
Bild-zu-Video: 1–7 Referenzbilder für Ihr Key-Visual animieren
Mindestens ein Bild, bis zu sieben. Gemini Omni erhält Look und Silhouette und ergänzt Bewegung — Produktrotationen, Charakteranimation, statisches KV als dynamisches Sample. Text beschreibt Bewegung und Kamera, nicht was schon im Frame steht.
- Use clear subjects; with multiple images, say what each contributes
- Richtung, Amplitude und Tempo der Bewegung
- To preserve identity, state what must not change on face or product
- Quota: images + videos×2 ≤ 7—plan references accordingly
Video-zu-Video: Referenzclip + Bilder für neue Shots, nicht nur Filter
Optionales Referenzvideo (2 Kontingenteinheiten) plus 1–7 Bilder. Kamerarhythmus oder Aktionsgerüst behalten, Stil, Umgebung oder Stimmung ändern. Mit Referenzclip bestimmt das Modell die Ausgabedauer; Dauersteuerung in der Workbench ausgeblendet.
- Decide what the reference clip provides: camera, action, or pacing
- Dann per Text, was bleibt und was sich ändert
- Clip ≤30 s, ≤100 MB pro Datei; Gesamtkontingent ≤7 mit Bildern
- For big style shifts, stage: stabilize subject first, then environment
AI video edit: relight, swap backgrounds, fix details in natural language
Fokus auf bestehendes Material statt neue Story von Null. Referenzclip mit optionalen Bildern hochladen und Änderungen beschreiben — Licht, Hintergrund, lokale Ersetzungen. Video-zu-Video erzeugt neue Shots aus Referenzen; der Editor poliert Vorhandenes.
- One class of change per pass (light / background / subject) works best
- Describe edits in time order: brighten opening, night window mid-clip, etc.
- Scope local edits: background only, or hands only—not the whole face
- Mit Referenzvideo automatische Dauer — kein manueller Sekundenwahler
Wählen Sie Gemini Omni in der Yevideo-Workbench für Text, Bild, Video-zu-Video und KI-Schnitt in einem Flow.
Für wen ist Gemini Omni — und welchen Nutzen bringt es?
Marken-Kreative, Produktmarketing, Creator und kleine Teams, die glaubwürdige komplexe Szenen, flexible Referenzen und einen Weg vom Test zum 4K-Sample brauchen.
.png)
Fantasy that still reads as real
Konzept-Ads brechen oft absichtlich die Physik — Zuschauer müssen trotzdem mitgehen. Geminis Reasoning hält surreale Ideen in Bewegung lesbar mit weniger offensichtlichen KI-Brüchen.
FAQ
Was ist Gemini Omni und wie hängt es mit Google Gemini zusammen?
Gemini Omni ist Googles multimodales KI-Videomodell auf Basis von Gemini — Weltwissen, Physik-Reasoning und flexible Referenzen. Yevideo verbindet per API für Nutzung im Browser ohne Self-Hosting.
What is Gemini Omni best at?
Drei Stärken: Gemini-Weltwissen für plausible Szenen, flexible multimodale Referenzen (bis 7 Bilder + 1 Video), eine Modell-ID über vier Workbenches. Ideal für Ad-Tests, Produktmotion, Social-Clips und Multi-Asset-Alignment.
How does the reference quota work?
Gesamtkontingent 7: jedes Bild = 1, jedes Referenzvideo = 2. Ein Videoclip lässt Platz für 5 Bilder; ohne Video bis zu 7 Bilder. Bild-zu-Video braucht mindestens ein Bild.
Wie schreibe ich Prompts für stabilere Ergebnisse?
Struktur Subjekt + Szene + Aktion + Kamera + Stimmung, getrennte Zeilen; widersprüchliches Licht oder Kamera vermeiden. Mit Bildern Bewegung und Objektiv beschreiben — nicht Sichtbares. Mit Videoreferenz angeben, ob Clip Kamera oder Aktion steuert und was sich ändern soll.
Gemini Omni vs Seedance 2.0 or Veo 3.1?
Nach Aufgabe wählen. Gemini Omni punktet bei Weltwissen und flexiblem multimodalem Input; passt ein anderer Audio-Workflow besser, dasselbe Storyboard auf beiden testen und Look sowie Credits vergleichen.
Wie werden Credits auf Yevideo berechnet?
Abhängig von Modell, Auflösung, Dauer und Referenzvideo. Schätzung vor Generierung. Zuerst 720p und kurze Clips; Fehlschläge sollten laut aktuellen Regeln keine Credits abziehen.
.webp)
.webp)
.webp)
.webp)
.png)
.png)
.png)