Generative Medien

Bild- und Video-Generierung: erzeugen statt verstehen

Der Artikel zur multimodalen KI erklärt, wie Modelle Bilder und Töne verstehen – und dass Erzeugen ein eigener Rechenweg ist. Hier geht es um genau dieses Erzeugen, aber praktisch: Welche Bild- und Video-Werkzeuge gibt es, was können sie wirklich, woran erkennt man generierte Medien, was kosten sie, und welche Rechte hängen daran? Die Technik dahinter – Diffusion, Tokens, Encoder – steht im Multimodal-Artikel; hier liegt der Fokus auf der Anwendung.

4 Min. Lesezeit
6 Abschnitte
11 Quellen
Stand: 16. Juni 2026

Diagramm „Diffusion“: ein Bildstreifen vom reinen Rauschen schrittweise zum fertigen Motiv, gesteuert vom Text-Prompt („Schritt für Schritt entrauschen“). Daneben der zweite Weg — das Bild Token für Token planen (autoregressiv).

Zwei Wege zum Bild: entrauschen oder planen

Bildgeneratoren erzeugen ihr Ergebnis nicht alle gleich. Der seit Jahren dominierende Ansatz ist die Diffusion: Ein Netz lernt, schrittweise zugefügtes Rauschen wieder herauszurechnen, und „schält“ so aus Zufallsrauschen ein neues Bild heraus – Prompt-gesteuert. Klassische Generatoren wie Midjourney oder die Stable-Diffusion-Linie arbeiten so; ihre Stärke ist die ästhetische, künstlerische Bildsprache. Wie Diffusion im Detail funktioniert, steht im Multimodal-Artikel.

Daneben sind neuere Modelle getreten, die das Bild eher Stück für Stück aufbauen und vor dem Rendern planen, was wohin gehört. OpenAIs GPT Image 2 nennt das „Bild mit Nachdenken“, Googles Nano Banana Pro erdet Motive sogar über die Google-Suche. Für die Praxis zählt der Effekt: Diese planenden Modelle sind deutlich besser bei Text im Bild und bei layout- und faktentreuer Grafik, während die Diffusions-Klassiker beim freien, künstlerischen Look vorn liegen. (Die saubere Trennung „Diffusion gegen planend“ ist didaktisch – technisch verschwimmen beide Ansätze zunehmend.)

Diffusion (z. B. Midjourney): aus Rauschen entrauschen – künstlerischer Look
Planende Modelle (GPT Image 2, Nano Banana Pro): stark bei Text im Bild & Faktentreue

MerksatzFür Stil und Ästhetik die Diffusions-Klassiker, für Text im Bild und Faktentreue die planenden Modelle – die Aufgabe entscheidet, nicht die Marke.

Wie Diffusion technisch funktioniert →Bild-Werkzeuge im Katalog →

Text zu Video: warum Bewegung das schwere Problem ist

Video-Generatoren nutzen dieselbe Entrausch-Idee wie Bildmodelle, nur auf einer komprimierten Raum-Zeit-Darstellung. Das eigentlich harte Problem ist nicht ein einzelnes hübsches Bild, sondern die zeitliche Konsistenz: dass Objekte, Personen und Hintergrund über Dutzende Frames stabil bleiben – kein Flackern, kein „Morphen“, keine Figur, die zwischen zwei Einstellungen das Gesicht wechselt. Mehr Dimensionen bedeuten mehr Rechenlast und mehr Fehlerquellen; es gibt eigene Forschungsstränge nur zu dieser Kohärenz.

Mitte 2026 hat sich der Stand verschoben: Native Tonspur in einem Durchgang (Dialog, Geräusche, Ambient) ist Standard geworden, Einzelclips liegen je nach Werkzeug bei rund 8 bis 15 Sekunden, und die Figuren-Konsistenz wird besser. Die führenden Werkzeuge sind Googles Veo, Kuaishous Kling und Runway – mit unterschiedlichen Stärken (Integration, Cliplänge und Preis, Profi-Kontrolle). OpenAIs Sora, einst das prominenteste, wird 2026 wieder eingestellt (siehe unten).

Das harte Problem: zeitliche Konsistenz über Frames
Stand Mitte 2026: native Tonspur Standard · Clips ~8–15 s

MerksatzEin gutes Einzelbild ist gelöst – eine konsistente Sequenz ist die eigentliche Hürde der Video-Generierung.

Video-Werkzeuge: Veo, Kling, Runway →

Woran man generierte Medien erkennt

Generatoren optimieren auf Plausibilität, nicht auf Wahrheit – das prägt ihre typischen Schwächen. Klassische Tells sind Hände und Finger (oft besser, aber bei mehreren Figuren weiter fehleranfällig) und Text im Bild, der „fast richtig“ aussieht und bei genauem Hinsehen in erfundene Buchstaben zerfällt. Bei Video kommt die Konsistenz über Szenen hinzu: dieselbe Person stabil zu halten, bleibt schwierig.

Die heikelste Grenze ist die Faktentreue: Logos, Diagramme, Beschriftungen oder Proportionen können überzeugend aussehen und trotzdem schlicht falsch sein. Genau weil synthetische Bilder und Stimmen so überzeugend geworden sind, wächst das Missbrauchs- und Deepfake-Risiko – und damit der Druck, Herkunft nachweisbar zu machen (nächster Abschnitt).

Typische Schwächen: Hände, Text im Bild, Figuren-Konsistenz
Kernfalle: plausibel ≠ wahr (Logos, Diagramme, Fakten)

MerksatzGenerierte Medien sehen plausibel aus – das heißt nicht, dass sie stimmen. Hände, Schrift und Fakten zuerst prüfen.

Herkunft nachweisen: C2PA und SynthID

Gegen Täuschung setzt die Branche auf zwei sich ergänzende Verfahren. C2PA („Content Credentials“) hängt der Datei ein kryptografisch signiertes Herkunfts-Manifest an: Erstellungs-Werkzeug, Zeitstempel, Bearbeitungs-Historie. Das ist transparent und prüfbar – aber fragil: Ein Screenshot zerstört es vollständig, und viele Plattformen entfernen die Metadaten beim erneuten Kodieren.

Googles SynthID geht den anderen Weg und bettet ein für Menschen unsichtbares Wasserzeichen direkt in die Pixel (auch in Audio und Video). Es übersteht Screenshots, sagt aber nur, dass etwas KI-generiert ist – nicht von welchem Werkzeug oder wem, und das Erkennen braucht Googles Infrastruktur. Beide Verfahren decken gegenseitig ihre Schwächen ab; im Mai 2026 kündigten Google und OpenAI einen kombinierten Ansatz an (C2PA-Metadaten plus SynthID-Wasserzeichen). Auf eines allein sollte man sich nicht verlassen: Open-Source-Generatoren ohne Wasserzeichen umgehen das System komplett.

C2PA / Content Credentials: signierte Metadaten – transparent, aber leicht entfernbar
SynthID: unsichtbares Pixel-Wasserzeichen – robuster, aber informationsarm

MerksatzC2PA dokumentiert die Herkunft, SynthID markiert das Pixel – zusammen stark, einzeln lückenhaft, und ganz ohne Wasserzeichen bleibt vieles unkennzeichenbar.

Was Erzeugen kostet – und warum OpenAI Sora einstellte

Ein Bild kostet über die gängigen Dienste grob zwischen einem und etwa zwanzig Cent. Video wird ganz anders abgerechnet – pro Sekunde – und ist um Größenordnungen teurer: Ein Video ist faktisch viele zusammenhängende Bilder plus die teure Konsistenz-Rechnung. Je nach Modell und Auflösung kostet eine Sekunde Video rund fünf bis dreißig Cent (frühere Modelle deutlich mehr); ein Zehn-Sekunden-Clip liegt damit schnell im Euro-Bereich. (Listenpreise sind oft subventioniert und sagen wenig über die echten Rechenkosten.)

Wie hart diese Ökonomie ist, zeigt OpenAIs Sora: Das einst gefeierte Video-Produkt wird wieder eingestellt – die App ging im April 2026 offline, die API folgt im September 2026. Als Gründe nennt OpenAI hohe Rechenkosten, sinkende Nutzung (von rund einer Million auf unter eine halbe Million aktive Nutzer) und ungelöste Urheberrechtsfragen. Generative Video ist beeindruckend – aber teuer genug, dass selbst ein führender Anbieter den Stecker zieht.

Bild: grob 1–20 Cent pro Stück
Video: pro Sekunde, ~5–30 Cent – Größenordnungen teurer
OpenAI Sora: eingestellt: App 04/2026, API 09/2026

MerksatzBilder kosten Cent, Video kostet pro Sekunde ein Vielfaches – teuer genug, dass selbst OpenAI sein Video-Produkt einstellte.

Wie KI-Kosten generell funktionieren →

Rechte: wem gehört das erzeugte Bild?

Zwei Rechtsfragen hängen an jedem generierten Bild. Erstens der Schutz des Outputs: In den USA verlangt das Copyright Office menschliche Urheberschaft – rein KI-erzeugte Bilder sind nicht eintragbar, und der Supreme Court ließ diese Linie im März 2026 (Fall Thaler) bestehen. Bloßes Prompten genügt in der Regel nicht; erst eine erkennbare menschliche Gestaltungsleistung (Auswahl, Anordnung, Bearbeitung) kann Schutz begründen. Wer KI-Bilder kommerziell einsetzt, sollte also nicht selbstverständlich von einem eigenen Urheberrecht ausgehen.

Zweitens die Trainingsdaten: Ob das Training von Bildmodellen auf urheberrechtlich geschütztem Material zulässig ist, ist Mitte 2026 weltweit nicht rechtskräftig geklärt. Im britischen Verfahren Getty gegen Stability AI (November 2025) setzte sich Stability weitgehend durch – das Modell speichere die Trainingsbilder nicht. In den USA darf die Künstler-Sammelklage Andersen gegen Stability AI dagegen in den Kern-Punkten weiterlaufen. Die Grundsatzfrage bleibt offen; Details und die EU-Lage stehen im Recht-Artikel.

Output-Schutz (USA): menschliche Urheberschaft nötig – reines Prompten reicht nicht
Trainingsdaten: Mitte 2026 nicht rechtskräftig geklärt (Getty/UK vs. Andersen/US)

MerksatzRein KI-erzeugte Bilder sind nicht automatisch dein Eigentum – und ob das Training erlaubt war, ist gerichtlich offen.

Recht, Datenschutz & Regulierung im Detail →

Aktuelle Depeschen

xAI verklagt erstmals einen eigenen Nutzer – wegen mit Grok erzeugter Missbrauchsdarstellungen →Google bringt Nano Banana 2 Lite (Bild) und Gemini Omni Flash (Video) in die API →Adobe bringt agentische KI in die Creative Cloud – Photoshop, Premiere & Co. als öffentliche Beta →Android 17: On-Device-Videogenerierung und KI-Avatar im Pixel Drop →