Wofür · Entscheidungshilfe

Bild, Audio & Video

Multimodale Ein- und Ausgabe jenseits von Text. Hier die kuratierten Empfehlungen – Modelle und Werkzeuge.

Zwei Dinge unter einem Dach: Die Modelle hier verstehen Bild, Audio und Video (multimodale Eingabe) – die Werkzeuge erzeugen Bilder (Ausgabe). Wer Bilder generieren will, schaut bei den Werkzeugen.

← Alle Aufgaben

Empfohlene Modelle

Alle Modelle →

Reihenfolge: zuerst unsere kuratierte Einstufung ( Spitze zuerst, dann solide, situativ, überholt), bei Gleichstand nach dem unabhängigen AA Intelligence-Index. Der Balken zeigt diesen Wert je Modell (länger = besser); markiert den besten Wert der Liste – er steht ggf. nicht oben, weil die Einstufung zuerst zählt.

Anthropic · proprietär

Claude Opus 5

Allrounder-Spitze (löst Opus 4.8 ab)

Nachfolger von Opus 4.8 zum unveränderten Preis (5 $/25 $ je Mio. Token). Die 193-seitige System-Card weist die größten Sprünge bei agentischem Coding, Computer-Use und langer Wissensarbeit aus; unabhängig verifiziert sind die drei ARC-AGI-Werte (u. a. 90,4 % auf ARC-AGI-2), zwei von Artificial Analysis gefahrene Profi-Arbeits-Ranglisten und seit dem 25.07. die AA-Composite-Indizes: Intelligenz 60,7 (Rang 1, vor Fable 5) und Coding 78,0 (Rang 2, 0,3 Punkte hinter GPT-5.6 Sol xhigh) – zum halben Fable-Preis. Erste Wahl für Agenten-, Computer-Use- und Wissensarbeit; Praxis-Stimmen mahnen allerdings, den Token-Verbrauch im Blick zu behalten, weil der halbe Listenpreis den Vorteil nur bringt, wenn er nicht gegenläuft.

Intelligenz61

Google · proprietär

Gemini 3.5 Flash

Preis-Leistungs-Tipp

Der Preis-Leistungs-Ausreißer: Intelligence-Index 50 (über Sonnet 4.6 und dem teureren Gemini 3.1 Pro) und Agentic 70 – zum Bruchteil des Flaggschiff-Preises. Auch beim Coding stark (70) – die empfehlenswerte Default-Wahl für Tempo und Volumen.

Intelligenz50

Google · proprietär

Gemini 3.1 Pro

Multimodal-Spezialist

Erste Wahl für breit multimodale Arbeit – Bild, Video, Audio und PDF, was sonst kein Flaggschiff im Katalog leistet. Beim Coding (69) stärker, als der Allzweck-Wert (46) vermuten lässt, und günstiger als die Index-Spitze. Höchster Human-Präferenz-Elo nach dem gesperrten Fable 5.

Intelligenz46

MiniMax · open-weight

MiniMax-M3

Open-Weight Allzweck (1-Mio.-Kontext)

Open-Weight-Flaggschiff mit 1-Mio.-Token-Kontext und nativer Multimodalität (Text/Bild/Video-Eingabe) zum Kampfpreis ($0,30 / $1,20). Im AA Intelligence Index 44 / Coding 59 – starke, günstige Allzweck-/Coding-Wahl fürs Self-Hosting, wenn keine absolute Spitzenqualität nötig ist.

Intelligenz44

Moonshot AI · open-weight

Kimi K2.6

Open-Weight Agenten-/Coding-Schwergewicht

Open-Weight-MoE mit 1 Bio. Parametern (32 Mrd. aktiv), stark bei Long-Horizon-Coding und Agenten-Schwärmen. Im AA Intelligence Index 43 / Coding 62 (Coding führt) – eine der stärksten offenen Coding-/Agenten-Optionen, multimodal mit 256-K-Kontext.

Intelligenz43

Anthropic · proprietär

Claude Haiku 4.5

Schnell & günstig, aber überholt

Beim reinen Preis-Leistungs-Verhältnis von DeepSeek-V4-Pro überholt – das erreicht alle drei AA-Indizes höher und kostet weniger pro Token. Haiku bleibt sinnvoll, wo niedrige Latenz, ein gemanagter Anbieter oder Bild-Eingabe zählen (die DeepSeek nicht bietet).

Intelligenz30

Google · open-weight

Gemma 4 12B

Lokal & On-Device

Nicht für Spitzenleistung gebaut, sondern für lokalen/Edge-Betrieb: läuft auf Consumer-Laptops, multimodal und Apache-2.0-offen. Empfehlung dort, wo Offline-Betrieb, Datenschutz oder Hardware-Limits wichtiger sind als Benchmark-Spitzen.

Intelligenz22

Meta · open-weight

Llama 4 Maverick

Kontext-Spezialist

Mit bis zu 10 Mio. Token das größte Kontextfenster im Katalog – aber der niedrigste Human-Präferenz-Elo (1327). Lohnt vor allem für extrem lange Kontexte und Self-Hosting, weniger für Spitzen-Antwortqualität.

Intelligenz14

Passende Werkzeuge

Alle Werkzeuge →

BildgenerierungFreemium

GPT Image 2

OpenAI

OpenAIs Bildmodell: erzeugt und bearbeitet Bilder mit verlässlichem In-Bild-Text und plant vor dem Zeichnen („Bild mit Nachdenken“).

BildgenerierungFreemium

Nano Banana Pro (Gemini 3 Pro Image)

Google DeepMind

Googles Bildmodell auf Gemini-3-Basis: erdet Motive über die Google-Suche und komponiert aus mehreren Vorlagen.

BildgenerierungKostenpflichtig

Midjourney

Bildgenerator mit Fokus auf ästhetische, künstlerische Bildsprache – über Web und Discord, im Abo.

VideogenerierungFreemium

Google Veo (Veo 3.1)

Google DeepMind

Googles Video-Modell: erzeugt aus Text oder Bild kurze Clips samt nativer Tonspur, tief ins Google-Ökosystem integriert.

VideogenerierungFreemium

Kling (Kling 3.0)

Kuaishou

Video-Modell mit langen Einzelclips und mehrsprachiger nativer Tonspur – nach Anbieterangaben die umsatzstärkste Video-Plattform der Welt.

VideogenerierungFreemium

Runway (Gen-4.5)

Runway

Video-Modell mit Profi-Fokus: konsistente Figuren und Szenen, feine Bewegungssteuerung – im Einsatz bis nach Hollywood.