Modelle30. Juni 2026neu

Google bringt Nano Banana 2 Lite (Bild) und Gemini Omni Flash (Video) in die API

Google hat am 30. Juni 2026 zwei generative Modelle für Entwickler freigegeben. Nano Banana 2 Lite (technisch „Gemini 3.1 Flash Lite Image“, gemini-3.1-flash-lite-image) erzeugt Bilder laut Google in rund vier Sekunden zu 0,034 US-Dollar pro 1K-Bild und löst das ursprüngliche Nano-Banana-Modell ab. Gemini Omni Flash (gemini-omni-flash-preview) bringt Videogenerierung und konversationelle Videobearbeitung aus Text-, Bild- und Videoeingaben – vorerst 10-Sekunden-Clips zu 0,10 US-Dollar je Ausgabesekunde. Beide laufen über Google AI Studio, die Gemini API und die Gemini Enterprise Agent Platform; das Bildmodell ist verfügbar, das Videomodell in öffentlicher Preview.

Nano Banana 2 Lite ist der schnelle, kostengünstige Ableger der Nano-Banana-Reihe und ersetzt laut Google das ursprüngliche Modell. Google nennt als Stärken „reliable prompt adherence, strong character consistency and legible in-image text rendering“ – also verlässliche Prompt-Treue, Figuren-Konsistenz und lesbaren Text im Bild – und positioniert es für „rapid ideation and high-velocity developer pipelines“. Angegeben sind Text-zu-Bild in vier Sekunden und 0,034 US-Dollar pro Bild in 1K-Auflösung. Verfügbar ist es ab sofort über Google AI Studio, die Gemini API und die Gemini Enterprise Agent Platform und rollt parallel in Endnutzer-Flächen aus (AI Mode in der Suche, Gemini-App, NotebookLM, Google Photos).

Gemini Omni Flash ist ein Modell für Videogenerierung und konversationelle Videobearbeitung, das Text-, Bild- und Videoeingaben kombiniert. Es erzeugt derzeit 10-Sekunden-Clips (längere Dauer „coming soon“) zu 0,10 US-Dollar je Ausgabesekunde und kann laut Google per Folgeanweisung editieren („conversational video editing“), auf Referenzen Bezug nehmen und Text mit Aktion synchronisieren. Es startet als öffentliche Preview in Google AI Studio, der Gemini API, der Enterprise Agent Platform, der Gemini-App und in Google Flow. Google dokumentiert offene Grenzen: Audio-Referenzen und Szenen-Verlängerung werden nicht unterstützt, Videoreferenzen bis 3 Sekunden nicht korrekt verarbeitet, und bei Szenenwechseln leidet die Figuren-Konsistenz.

Einordnung: Mit einem Bild- und einem Video-Modell unter demselben Dach drückt Google auf den günstigen, schnellen Massenbetrieb – derselbe Hebel „mehr Generierungen pro Euro“, der schon bei Computer Use im Flash-Modell sichtbar war. Im Wettbewerb steht das Videomodell etwa gegen ByteDances Seedance-Reihe; belastbar vergleichen lässt sich das aber erst mit unabhängigen Messungen. Bis dahin gelten die Latenz-, Preis- und Qualitätsangaben als Anbieter-Aussagen.

Warum relevant

Schnelle, günstige Bild- und Videogenerierung direkt aus der API ist für Entwickler und Gestalter das praktisch greifbarste Stück dieser Woche: Vier Sekunden und gut drei Cent pro Bild zielen ausdrücklich auf „high-velocity“-Pipelines, in denen viele Varianten in Schleifen entstehen. Google empfiehlt die Verkettung beider Modelle (erst Bild, dann Video) als durchgängigen Generierungs-Stack. Einordnung: Latenz- und Preisangaben sind Google-eigene Zahlen, unabhängig noch nicht nachgemessen; das Videomodell ist Preview mit dokumentierten Grenzen (keine Audio-Referenzen, Szenenwechsel brechen die Figuren-Konsistenz, Videoreferenzen unter 3 Sekunden werden nicht sauber verarbeitet). Eigenständige Bildqualitäts-Benchmarks nennt Google nicht – konkrete Vergleichswerte werden hier deshalb nicht zitiert.