Modalitäten
Multimodale KI: Bild, Audio und Video verstehen
„Multimodal“ heißt: Ein Modell versteht nicht nur Text, sondern auch Bilder, Audio, Video oder PDFs. Hinter dem Schlagwort steckt aber kein magisches Auge – sondern derselbe Mechanismus wie bei Text: Alles wird in Tokens übersetzt und durch denselben Transformer geschickt. Dieser Artikel erklärt, wie eine Modalität ins Modell kommt, warum Verstehen und Erzeugen zwei verschiedene Paar Schuhe sind und wie ein Bild auf dein Kontextfenster und deine Kosten durchschlägt.
Was „multimodal“ wirklich bedeutet
Eine Modalität ist eine Art von Eingabe: Text, Bild, Audio, Video, PDF. Ein multimodales Modell kann mehr als eine davon verarbeiten – typischerweise Text plus Bild, manche zusätzlich Audio und Video. Welches Modell welche Modalitäten beherrscht, ist eine harte Eigenschaft der Modellkarte, kein Detail: Ein reines Text-Modell kann ein Foto schlicht nicht lesen.
Entscheidend ist die Blickrichtung „hinein“: Die spannende Frage ist, wie aus einem Pixelraster oder einer Schallwelle etwas wird, das ein Sprachmodell überhaupt anfassen kann. Denn intern rechnet ein Transformer immer mit demselben: mit Vektoren im Embedding-Raum.
- Typische Eingabe-Modalitäten
- Text, Bild, Audio, Video, PDF
Merksatz Multimodal heißt: mehr als Text geht hinein. Was hinausgeht, ist eine eigene Frage.
Wie das Bild ins Modell kommt: encoder-frei
Klassisch hängt vor dem Sprachmodell ein separater Bild- oder Audio-Encoder, der eine Eingabe erst in eine Zwischenrepräsentation übersetzt. Eine neuere Bauweise spart diesen Vorbau: Bei einer encoder-freien Architektur – etwa in Googles Gemma 4 12B – werden rohe Bild-Patches und Audio-Wellenformen über leichte lineare Schichten direkt in den Embedding-Raum eines decoder-only Sprachmodells projiziert.
Der Effekt: Alle Modalitäten fließen in einen einzigen Transformer, statt durch getrennte Spezial-Netze. Das senkt Latenz und Speicherbedarf bei multimodalen Eingaben und erlaubt es, das ganze Modell in einem Durchgang end-to-end nachzutrainieren – Sprache und Wahrnehmung werden gemeinsam optimiert, nicht in getrennten Stufen.
Merksatz Encoder-frei: Pixel und Wellenform werden direkt in denselben Embedding-Raum gelegt wie Wörter – ein Modell, ein Durchgang.
Verstehen ja, malen nein: Eingabe ≠ Ausgabe
Eine verbreitete Verwechslung: „multimodal“ heißt nicht „kann Bilder erzeugen“. Aktuelle Spitzenmodelle wie Claude Opus 4.8, Fable/Mythos 5 oder Gemini 3.x nehmen Bild, Audio und Video als Eingabe entgegen – ihre Ausgabe ist aber „text only“. Sie beschreiben, analysieren und beantworten Fragen zu einem Bild, malen aber selbst keines.
Bild-, Audio- und Videoerzeugung übernehmen separate, darauf spezialisierte Modelle. Wenn ein Chat-Produkt also ein Bild generiert, ruft es im Hintergrund ein eigenes Generierungsmodell auf – das verstehende Sprachmodell und das erzeugende Bildmodell sind zwei verschiedene Systeme, auch wenn sie unter einer Oberfläche zusammenarbeiten.
- Frontier-Modelle (Bild/Audio/Video)
- Eingabe: ja · Ausgabe: nur Text
Merksatz Multimodaler Input und multimodaler Output sind getrennt: Spitzen-Sprachmodelle verstehen Medien, erzeugen aber Text – Bilder kommen aus eigenen Modellen.
Was ein Bild kostet: Token-Budgets
Auch ein Bild oder eine Tonspur wird zu Tokens – denselben Recheneinheiten, in die ein Modell auch Text zerlegt. Ein Bild belegt also einen Teil des Kontextfensters, genau wie ein langer Textabschnitt. Bei Gemma 4 etwa ist das Bild-Budget konfigurierbar (rund 70 bis 1120 visuelle Tokens pro Bild); Audio ist auf etwa 30 Sekunden, Video auf rund 60 Frames begrenzt.
Praktisch heißt das: Wer hochauflösende Bilder, lange Tonspuren oder viele Frames in einen Prompt legt, verbraucht spürbar Kontext – und bezahlt ihn mit. Ein scheinbar kleines Foto kann mehr Tokens kosten als ein ganzer Absatz Text. Beim Kalkulieren von Kontextgrenze und Preis zählen Medien voll mit.
- Visuelle Tokens je Bild (Gemma 4)
- konfigurierbar, ~70–1120
- Audio / Video (Gemma 4)
- max. ~30 s · bis ~60 Frames
Merksatz Bild und Audio werden zu Tokens und zählen voll ins Kontextfenster – ein Foto kann teurer sein als ein Absatz Text.