Wofür · Entscheidungshilfe

Bild, Audio & Video

Multimodale Ein- und Ausgabe jenseits von Text. Hier die kuratierten Empfehlungen – Modelle, Werkzeuge und Tipps.

← Alle Aufgaben

Empfohlene Modelle

Alle Modelle →

Google · proprietär

Gemini 3.5 Flash

Preis-Leistungs-Tipp

Der Preis-Leistungs-Ausreißer: Intelligence-Index 50 (über Sonnet 4.6 und dem teureren Gemini 3.1 Pro) und Agentic 70 – zum Bruchteil des Flaggschiff-Preises. Beim Coding nur 45, ansonsten die empfehlenswerte Default-Wahl für Tempo und Volumen.

Intelligenz50

Google · proprietär

Gemini 3.1 Pro

Multimodal-Spezialist

Erste Wahl für breit multimodale Arbeit – Bild, Video, Audio und PDF, was sonst kein Flaggschiff im Katalog leistet. Beim Coding (55) stärker, als der Allzweck-Wert (46) vermuten lässt, und günstiger als die Index-Spitze. Höchster Human-Präferenz-Elo nach dem gesperrten Fable 5.

Intelligenz46

Anthropic · proprietär

Claude Haiku 4.5

Schnell & günstig, aber überholt

Beim reinen Preis-Leistungs-Verhältnis von DeepSeek-V4-Pro überholt – das erreicht alle drei AA-Indizes höher und kostet weniger pro Token. Haiku bleibt sinnvoll, wo niedrige Latenz, ein gemanagter Anbieter oder Bild-Eingabe zählen (die DeepSeek nicht bietet).

Intelligenz30

Meta · open-weight

Llama 4 Maverick

Kontext-Spezialist

Mit bis zu 10 Mio. Token das größte Kontextfenster im Katalog – aber der niedrigste Human-Präferenz-Elo (1327). Lohnt vor allem für extrem lange Kontexte und Self-Hosting, weniger für Spitzen-Antwortqualität.

Human-Präferenz1327

Google · open-weight

Gemma 4 12B

Lokal & On-Device

Nicht für Spitzenleistung gebaut, sondern für lokalen/Edge-Betrieb: läuft auf Consumer-Laptops, multimodal und Apache-2.0-offen. Empfehlung dort, wo Offline-Betrieb, Datenschutz oder Hardware-Limits wichtiger sind als Benchmark-Spitzen.

Passende Werkzeuge

Alle Werkzeuge →