Modalitäten

Multimodale KI: Bild, Audio und Video verstehen

„Multimodal“ heißt: Ein Modell versteht nicht nur Text, sondern auch Bilder, Audio, Video oder PDFs. Hinter dem Schlagwort steckt aber kein magisches Auge – sondern derselbe Mechanismus wie bei Text: Alles wird in Tokens übersetzt und durch denselben Transformer geschickt. Dieser Artikel erklärt, wie eine Modalität ins Modell kommt, warum Verstehen und Erzeugen zwei verschiedene Paar Schuhe sind und wie ein Bild auf dein Kontextfenster und deine Kosten durchschlägt.

6 Min. Lesezeit
7 Abschnitte
11 Quellen
Stand: 16. Juni 2026

Diagramm „Wie ein Bild ins Modell kommt“: Bild → in Kacheln (Patches) zerlegt → Projektion zu Bild-Tokens → gemeinsamer Token-Strom mit Text-Tokens → Sprachmodell → Text-Antwort. Hinweis: Eingabe ≠ Ausgabe — das Modell versteht Bilder, gibt aber nur Text zurück.

Was „multimodal“ wirklich bedeutet

Eine Modalität ist eine Art von Eingabe: Text, Bild, Audio, Video, PDF. Ein multimodales Modell kann mehr als eine davon verarbeiten – typischerweise Text plus Bild, manche zusätzlich Audio und Video. Welches Modell welche Modalitäten beherrscht, ist eine harte Eigenschaft der Modellkarte, kein Detail: Ein reines Text-Modell kann ein Foto schlicht nicht lesen.

Entscheidend ist die Blickrichtung „hinein“: Die spannende Frage ist, wie aus einem Pixelraster oder einer Schallwelle etwas wird, das ein Sprachmodell überhaupt anfassen kann. Denn intern rechnet ein Transformer immer mit demselben: mit Vektoren im Embedding-Raum.

Typische Eingabe-Modalitäten: Text, Bild, Audio, Video, PDF

MerksatzMultimodal heißt: mehr als Text geht hinein. Was hinausgeht, ist eine eigene Frage.

Welche Modelle welche Modalitäten können →

Wie das Bild ins Modell kommt: encoder-frei

Klassisch hängt vor dem Sprachmodell ein separater Bild- oder Audio-Encoder, der eine Eingabe erst in eine Zwischenrepräsentation übersetzt. Eine neuere Bauweise spart diesen Vorbau: Bei einer encoder-freien Architektur – etwa in Googles Gemma 4 12B – werden rohe Bild-Patches und Audio-Wellenformen über leichte lineare Schichten direkt in den Embedding-Raum eines decoder-only Sprachmodells projiziert.

Der Effekt: Alle Modalitäten fließen in einen einzigen Transformer, statt durch getrennte Spezial-Netze. Das senkt Latenz und Speicherbedarf bei multimodalen Eingaben und erlaubt es, das ganze Modell in einem Durchgang end-to-end nachzutrainieren – Sprache und Wahrnehmung werden gemeinsam optimiert, nicht in getrennten Stufen.

MerksatzEncoder-frei: Pixel und Wellenform werden direkt in denselben Embedding-Raum gelegt wie Wörter – ein Modell, ein Durchgang.

Gemma 4 12B: encoder-frei, läuft lokal →

Das Fundament: wie ein Bild zu Bedeutung wird

Bevor es die encoder-freie Bauweise gab, lief und läuft Bildverstehen über das klassische Paradigma: ein eigener Bild-Encoder wandelt das Pixelraster in einen Vektor, der dann ins Sprachmodell fließt. Den entscheidenden Bauplan dazu lieferte 2021 CLIP (Radford et al., OpenAI). Die Idee: Man trainiert einen Bild-Encoder und einen Text-Encoder gemeinsam und zwingt beide, ihre Ausgaben in denselben Einbettungsraum zu legen – ein Foto eines Hundes und der Text „ein Hund“ landen also an benachbarten Punkten. So wird Bild mit Text vergleichbar, ohne dass ein Mensch für jede Aufgabe eigene Labels vergeben muss (Zero-Shot, also ohne aufgabenspezifisches Nachtraining).

Der Clou liegt im Trainingssignal. Statt knapper Gold-Labels wie bei ImageNet (rund eine Million handgelabelte Bilder) nutzt CLIP die in Milliardenmenge frei verfügbaren Bildbeschreibungen aus dem Web als Aufsicht. Diese Methode – gemeinsamer Einbettungsraum, natürliche Web-Captions als Signal – ist das konzeptuelle Fundament, auf dem heutige multimodale Modelle aufsetzen. (Dass CLIP klassische Vision-Modelle schlage, ist allerdings eine OpenAI-Eigenangabe; unabhängige Nachmessungen fielen gemischt aus – gesichert ist die Methode, nicht die Überlegenheits-Wertung.)

Den zweiten Baustein liefert DALL-E, im selben Jahr von Ramesh et al. vorgestellt: Text-zu-Bild als reines Sequenz-zu-Sequenz-Problem, bei dem Text- und Bild-Tokens einheitlich durch einen Transformer laufen. Damit ein kontinuierliches Pixelbild überhaupt in Tokens zerfällt, braucht es ein Codebuch diskreter Bild-Bausteine – das leistet bei DALL-E ein dVAE (discrete VAE, aufbauend auf der VQ-VAE-Idee von van den Oord et al. 2017) mit einem Vokabular von 8.192 möglichen Werten. „Auch Bilder werden zu Tokens“ ist damit kein Bild, sondern Mechanik: genau die Brücke zum Token-Kernargument des Intros. So ordnet es auch der didaktische Erklär-Kanal CodeEmporium ein, der CLIP, DALL-E und das Codebuch diskreter Bild-Tokens nüchtern und ohne Überverkauf als zusammenhängenden Bauplan darstellt.

CLIP (Radford et al., 2021): gemeinsamer Bild-/Text-Einbettungsraum – Zero-Shot via Web-Captions
Trainingssignal: Milliarden Web-Bildbeschreibungen statt ~1 Mio. Gold-Labels (ImageNet)
DALL-E (Ramesh et al., 2021): Text-zu-Bild als Sequence-to-Sequence – ein Transformer
dVAE-Codebuch (DALL-E): 8.192 diskrete Bild-Tokens – macht Bilder sequenzierbar

MerksatzCLIP legt Bild und Text in denselben Einbettungsraum, ein dVAE (VQ-VAE-Idee) macht Bilder zu Tokens – darauf baut alles Spätere auf.

Wie Tokens und das Kontextfenster funktionieren →

Verstehen ja, malen nein: Eingabe ≠ Ausgabe

Eine verbreitete Verwechslung: „multimodal“ heißt nicht „kann Bilder erzeugen“. Aktuelle Spitzenmodelle wie Claude Opus 4.8, Fable/Mythos 5 oder Gemini 3.x nehmen Bild, Audio und Video als Eingabe entgegen – ihre Ausgabe ist aber „text only“. Sie beschreiben, analysieren und beantworten Fragen zu einem Bild, malen aber selbst keines.

Der Unterschied ist mechanisch, nicht nur sprachlich: Das verstehende Modell nutzt einen CLIP-artigen Encoder, der das Bild in denselben Einbettungsraum legt wie die Wörter (s. o.); das erzeugende Modell ist eine ganz andere Maschine – meist ein Diffusionsmodell, das aus Rauschen schrittweise ein Bild herausrechnet (s. u.). Verstehen ist ein Encoder-Schritt ins Sprachmodell hinein, Erzeugen ein eigener Rechenweg daneben.

Bild-, Audio- und Videoerzeugung übernehmen also separate, darauf spezialisierte Modelle. Wenn ein Chat-Produkt ein Bild generiert, ruft es im Hintergrund ein eigenes Generierungsmodell auf – das verstehende Sprachmodell und das erzeugende Bildmodell sind zwei verschiedene Systeme, auch wenn sie unter einer Oberfläche zusammenarbeiten.

Frontier-Modelle (Bild/Audio/Video): Eingabe: ja · Ausgabe: nur Text

MerksatzMultimodaler Input und multimodaler Output sind getrennt: Spitzen-Sprachmodelle verstehen Medien, erzeugen aber Text – Bilder kommen aus eigenen Modellen.

Wie Bilder erzeugt werden: Diffusion →Bildgenerierung in der Praxis (Frontend & Design) →

Wie Bilder erzeugt werden: Diffusion

Wenn die verstehenden Sprachmodelle keine Bilder malen, woher kommen dann die generierten? Aus einer eigenen Modellklasse, die heute die Bild-Erzeugung dominiert: Diffusionsmodelle. Das Grundprinzip stammt aus Ho et al. 2020 (DDPM) und ist erstaunlich einfach beschrieben. In der Trainings-Vorwärtsrichtung wird ein echtes Bild Schritt für Schritt mit Rauschen zugedeckt, bis nur noch Bildrauschen übrig ist (Forward-Noising). Ein neuronales Netz lernt dann, diesen Vorgang umzukehren – also aus reinem Rauschen Schritt für Schritt wieder ein Bild herauszuschälen (Reverse-Denoising).

Erzeugen heißt dann: Man startet mit Zufallsrauschen und lässt das gelernte Entrausch-Netz viele kleine Schritte laufen, bis ein neues, nie gesehenes Bild dasteht – bei Text-zu-Bild gesteuert durch den Prompt. Der quellenbewusste Erklär-Kanal CodeEmporium fasst den Mechanismus nüchtern und ohne Überverkauf zusammen: schrittweises Verrauschen vorwärts, gelerntes schrittweises Entrauschen rückwärts. Wichtig fürs mentale Modell: Das ist ein anderer Rechenweg als das Token-für-Token-Vorhersagen eines Sprachmodells – verstehen und erzeugen laufen über verschiedene Maschinen.

Mechanismus (DDPM, Ho et al. 2020): Forward-Noising → gelerntes Reverse-Denoising
Erzeugung: aus Zufallsrauschen schrittweise entrauschen, Prompt-gesteuert

MerksatzDiffusion erzeugt Bilder, indem ein Netz lernt, schrittweise zugefügtes Rauschen wieder herauszurechnen – ein eigener Mechanismus, nicht das Token-Vorhersagen der Sprachmodelle.

Bildgenerierung in der Praxis (Frontend & Design) →

Was ein Bild kostet: Token-Budgets

Auch ein Bild oder eine Tonspur wird zu Tokens – denselben Recheneinheiten, in die ein Modell auch Text zerlegt. Ein Bild belegt also einen Teil des , genau wie ein langer Textabschnitt. Bei Gemma 4 etwa ist das Bild-Budget konfigurierbar (rund 70 bis 1120 visuelle Tokens pro Bild); Audio ist auf etwa 30 Sekunden, Video auf rund 60 Frames begrenzt.

Praktisch heißt das: Wer hochauflösende Bilder, lange Tonspuren oder viele Frames in einen Prompt legt, verbraucht spürbar Kontext – und bezahlt ihn mit. Ein scheinbar kleines Foto kann mehr Tokens kosten als ein ganzer Absatz Text. Beim Kalkulieren von Kontextgrenze und Preis zählen Medien voll mit.

Visuelle Tokens je Bild (Gemma 4): konfigurierbar, ~70–1120
Audio / Video (Gemma 4): max. ~30 s · bis ~60 Frames

MerksatzBild und Audio werden zu Tokens und zählen voll ins Kontextfenster – ein Foto kann teurer sein als ein Absatz Text.

Wie Tokens und das Kontextfenster funktionieren →

Ausblick: von Wahrnehmung zu Weltmodellen

Multimodalität ist bisher vor allem Wahrnehmung – verstehen und beschreiben. Der nächste Schritt ist Handeln. VLA-Modelle (Vision-Language-Action), seit RT-2 von Brohan et al. 2023, übersetzen Internet-Bild- und -Textwissen in physische Roboter-Handlungen: dieselbe Maschinerie, die ein Bild beschreibt, steuert nun einen Greifarm. Der ML-Historien-Kanal Welch Labs ordnet RT-2 als den Schritt „von multimodalem Verstehen zu multimodalem Handeln“ ein – mahnt aber zur Disziplin: Beeindruckende Demos bedeuten keine Marktreife, eine Lektion, die schon das autonome Fahren seit den 1990er-Jahren lehrt (RALPH fuhr 1995 quer durch die USA – marktreif war es damit lange nicht).

Wie früh das Feld steht, ordnet der System-Card-nahe Analyse-Kanal Cognitive Revolution ein: Computer Vision sei heute etwa dort, wo Sprachmodelle vor drei Jahren standen – an einem „ChatGPT-Moment“, mit Inference-Time-Scaling für Vision als einer der wichtigsten laufenden S-Kurven. (Diese Einordnung fiel in einem Gespräch mit dem Chef eines Vision-Startups – also als Perspektive zu lesen, nicht als gemessener Fakt.)

Offen und umstritten bleibt, ob mehr Wahrnehmung allein zu allgemeiner Intelligenz führt. Yann LeCun etwa hält reine Sprach- und VLA-Systeme für begrenzt und setzt auf JEPA-basierte Weltmodelle, die stabile Strukturen statt Pixel-Texturen lernen. Das ist eine benannte Gegenposition, kein entschiedener Fakt: Die KI-Depesche führt die Frage als offene Streitfrage (skaliert das heutige Paradigma zu allgemeiner Fähigkeit, oder braucht es Weltmodelle?), für die beide Lager bislang nur indirekt belegt sind.

VLA (RT-2, Brohan et al. 2023): Web-Wissen → physische Roboter-Handlung
Demo ≠ Marktreife: Analogie: autonomes Fahren (RALPH, 1995)

MerksatzDer Trend geht von Wahrnehmung zu Handeln (VLA) – ob Wahrnehmung allein zu allgemeiner Intelligenz reicht oder es Weltmodelle braucht, ist offen.

Modelle im Vergleich – welche Modalitäten welches Modell kann →

Aktuelle Depeschen

Vom Oberkörper zum ganzen Roboter: Google DeepMind stellt drei Gemini-Robotics-2-Modelle vor →OpenAI erneuert seine Spracherkennung: GPT Transcribe und GPT Live Transcribe – ein Viertel billiger, im unabhängigen Vergleich weiter hinter ElevenLabs →Thinking Machines öffnet die Gewichte: Inkling ist ein 975-Milliarden-MoE unter Apache 2.0 – und laut Labor ausdrücklich nicht das stärkste Modell →OpenAI stellt GPT-Live vor: ein Full-Duplex-Sprachmodell, das zuhört, während es spricht →