Wofür · Entscheidungshilfe

Recherche & Analyse

Wissensarbeit, lange Dokumente, Tiefenrecherche. Hier die kuratierten Empfehlungen – Modelle, Werkzeuge und Tipps.

← Alle Aufgaben

Empfohlene Modelle

Alle Modelle →

Anthropic · proprietär

Claude Opus 4.8

Allrounder-Spitze

Stärkster praktisch verfügbarer Allrounder: führt den unabhängigen Intelligence- (56) und Agentic-Index (78). Nur beim reinen Coding liegt GPT-5.5 (59) knapp vorn – dort allerdings zu höherem Output-Preis. Erste Wahl, wo Tiefe und lange autonome Läufe zählen.

Intelligenz56

OpenAI · proprietär

GPT-5.5

Coding-Spitze

Führt den unabhängigen AA Coding Index (59) vor Opus 4.8 (57) – das beste gemessene Modell fürs Programmieren. Bei Allzweck-Intelligenz minimal hinter Opus und mit höherem Output-Preis ($30), daher vor allem dann erste Wahl, wenn Code-Qualität im Vordergrund steht.

Intelligenz55

Google · proprietär

Gemini 3.5 Flash

Preis-Leistungs-Tipp

Der Preis-Leistungs-Ausreißer: Intelligence-Index 50 (über Sonnet 4.6 und dem teureren Gemini 3.1 Pro) und Agentic 70 – zum Bruchteil des Flaggschiff-Preises. Beim Coding nur 45, ansonsten die empfehlenswerte Default-Wahl für Tempo und Volumen.

Intelligenz50

Google · proprietär

Gemini 3.1 Pro

Multimodal-Spezialist

Erste Wahl für breit multimodale Arbeit – Bild, Video, Audio und PDF, was sonst kein Flaggschiff im Katalog leistet. Beim Coding (55) stärker, als der Allzweck-Wert (46) vermuten lässt, und günstiger als die Index-Spitze. Höchster Human-Präferenz-Elo nach dem gesperrten Fable 5.

Intelligenz46

DeepSeek · open-weight

DeepSeek-V4-Pro

Open-Weight-Preis-Leistung

Der Preis-Leistungs-Sieger unter den offenen Gewichten: stärkstes Coding (47) und Agentic (67) seiner Preisklasse, dabei mit Abstand am günstigsten und selbst hostbar. Erste Wahl, wo Kosten, Datenhoheit oder lange Generierungen zählen – allerdings reine Text-Modalität.

Intelligenz44

Anthropic · proprietär

Claude Sonnet 4.6

Tempo-Preis-Arbeitspferd

Die ausgewogene Standard-Wahl: rund 40 % günstiger als Opus 4.8 bei nur mäßig geringeren Werten. Kein Spitzenreiter bei den härtesten Aufgaben, aber kein gemessenes Modell übertrifft es bei gleichem oder geringerem Preis – damit weiterhin klar empfehlenswert für den Alltag.

Intelligenz47

Alibaba · proprietär

Qwen3-Max

Agentic-Allzweck (Alibaba Cloud)

Auf mehrstufige, tool-lastige Workflows ausgelegt, mit großem 256-K-Kontext und günstigem Kurz-Prompt-Preis. Nur über Alibaba Cloud nutzbar und bei langen Prompts gestaffelt teurer; unabhängig bislang nur per Elo (1435) belegt.

Human-Präferenz1435

Anthropic · proprietär

Claude Fable 5

Benchmark-Spitze, aktuell gesperrt

Auf dem Papier das stärkste Modell des Katalogs – Spitzenwerte in allen vier unabhängigen Messungen. Aber seit dem 12.06.2026 ist der Zugang weltweit ausgesetzt, das Modell also praktisch nicht nutzbar. Bis zur Wiederherstellung keine Empfehlung für den produktiven Einsatz.

Zugang ausgesetzt

Intelligenz60

Meta · open-weight

Llama 4 Maverick

Kontext-Spezialist

Mit bis zu 10 Mio. Token das größte Kontextfenster im Katalog – aber der niedrigste Human-Präferenz-Elo (1327). Lohnt vor allem für extrem lange Kontexte und Self-Hosting, weniger für Spitzen-Antwortqualität.

Human-Präferenz1327

Passende Werkzeuge

Alle Werkzeuge →

Hilfreiche Tipps

Alle Tipps →