Wofür · Entscheidungshilfe

Recherche & Analyse

Wissensarbeit, lange Dokumente, Tiefenrecherche. Hier die kuratierten Empfehlungen – Modelle und Werkzeuge.

Empfohlene Modelle

Reihenfolge: zuerst unsere kuratierte Einstufung ( Spitze zuerst, dann solide, situativ, überholt), bei Gleichstand nach dem unabhängigen AA Intelligence-Index. Der Balken zeigt diesen Wert je Modell (länger = besser); markiert den besten Wert der Liste – er steht ggf. nicht oben, weil die Einstufung zuerst zählt.

Anthropic · proprietär

Claude Opus 5

Allrounder-Spitze (löst Opus 4.8 ab)

Nachfolger von Opus 4.8 zum unveränderten Preis (5 $/25 $ je Mio. Token). Die 193-seitige System-Card weist die größten Sprünge bei agentischem Coding, Computer-Use und langer Wissensarbeit aus; unabhängig verifiziert sind die drei ARC-AGI-Werte (u. a. 90,4 % auf ARC-AGI-2), zwei von Artificial Analysis gefahrene Profi-Arbeits-Ranglisten und seit dem 25.07. die AA-Composite-Indizes: Intelligenz 60,7 (Rang 1, vor Fable 5) und Coding 78,0 (Rang 2, 0,3 Punkte hinter GPT-5.6 Sol xhigh) – zum halben Fable-Preis. Erste Wahl für Agenten-, Computer-Use- und Wissensarbeit; Praxis-Stimmen mahnen allerdings, den Token-Verbrauch im Blick zu behalten, weil der halbe Listenpreis den Vorteil nur bringt, wenn er nicht gegenläuft.

Intelligenz61

OpenAI · proprietär

GPT-5.6 Sol

Coding-Spitze

Neues GPT-Flaggschiff, seit 9. Juli 2026 allgemein verfügbar. Führt den unabhängigen AA Coding Index an (77) – knapp vor der eigenen Mittel-Stufe Terra und Fable 5 – und liegt bei Allzweck-Intelligenz auf Rang 2 (59, nur hinter Fable 5). Erste Wahl für anspruchsvolles Coding und Long-Horizon-Agentik – der höchste Preis der Familie ($5 / $30) und ein METR-Vorbehalt zum Reward-Hacking bleiben die Abwägung.

Intelligenz59

Google · proprietär

Gemini 3.5 Flash

Preis-Leistungs-Tipp

Der Preis-Leistungs-Ausreißer: Intelligence-Index 50 (über Sonnet 4.6 und dem teureren Gemini 3.1 Pro) und Agentic 70 – zum Bruchteil des Flaggschiff-Preises. Auch beim Coding stark (70) – die empfehlenswerte Default-Wahl für Tempo und Volumen.

Intelligenz50

Google · proprietär

Gemini 3.1 Pro

Multimodal-Spezialist

Erste Wahl für breit multimodale Arbeit – Bild, Video, Audio und PDF, was sonst kein Flaggschiff im Katalog leistet. Beim Coding (69) stärker, als der Allzweck-Wert (46) vermuten lässt, und günstiger als die Index-Spitze. Höchster Human-Präferenz-Elo nach dem gesperrten Fable 5.

Intelligenz46

DeepSeek · open-weight

DeepSeek-V4-Pro

Open-Weight-Preis-Leistung

Der Preis-Leistungs-Sieger unter den offenen Gewichten: sehr starkes Coding (59) und Agentic (67) seiner Preisklasse, dabei mit Abstand am günstigsten und selbst hostbar. Erste Wahl, wo Kosten, Datenhoheit oder lange Generierungen zählen – allerdings reine Text-Modalität.

Intelligenz44

OpenAI · proprietär

GPT-5.5

Bewährtes Coding-Flaggschiff

Starkes, erprobtes Coding-Modell (AA Coding Index 75, Intelligenz 55). Seit dem GPT-5.6-Start (9.7.) beim selben Output-Preis ($30) von Sol überholt (77 / 59) und beim Coding auch von Terra und Fable 5 (je 77) eingeholt; dicht bei Opus 4.8 (74 / 56). Weiter eine gute Wahl, wo eine länger erprobte, stabile Option ohne den METR-Reward-Hacking-Vorbehalt von Sol zählt.

Intelligenz55

OpenAI · proprietär

GPT-5.6 Terra

Preis-Leistungs-Tipp

Ausgewogene Mittel-Stufe, seit 9. Juli 2026 allgemein verfügbar – und der Preis-Leistungs-Fund der Familie: unabhängig gemessen (AA, max) erreicht Terra GPT-5.5 (AA-Intelligence-Index 55 = 55; AA Coding Index 77 vs. 75) zu einem Bruchteil des Preises. Seit dem 30. Juli 2026 kostet Terra $2 / $12 statt $2,50 / $15 – 20 Prozent weniger. Nur beim Allzweck-Reasoning liegt das Flaggschiff Sol (59) vorn. Die runde Wahl für kostenbewusste Allzweck-, Coding- und Agenten-Arbeit.

Intelligenz55

xAI · proprietär

Grok 4.5

Frontier-nah, in der EU noch gesperrt

xAIs neues Flaggschiff spielt beim Coding erstmals in der proprietären Spitzengruppe (AA Coding Index 72 – gleichauf mit Sonnet 5, knapp hinter Opus 4.8/GPT-5.5) und liegt in der Allzweck-Intelligenz nur wenig hinter Opus 4.8. Bremsen: proprietär, für EU-Nutzer bei Redaktionsschluss noch nicht über die API-Konsole freigegeben, und agentische Verlässlichkeit (AA Agentic/τ²) bisher nicht unabhängig gemessen.

Eingeschränkt verfügbar

Intelligenz54

Anthropic · proprietär

Claude Sonnet 5

Tempo-Preis-Arbeitspferd

Nachfolger von Sonnet 4.6 mit deutlichem Sprung bei Agentic-Coding und Tool-Use, weiterhin klar günstiger als Opus 4.8/Mythos 5 und laut Anbieter nah an deren Niveau – aber kein Frontier-Modell: in der eigenen System Card sowohl bei den härtesten Coding-/Agentic-Werten als auch bei Cybersicherheits-Fähigkeiten hinter Opus 4.8.

Intelligenz53

Alibaba · proprietär

Qwen3-Max

Agentic-Allzweck (Alibaba Cloud)

Auf mehrstufige, tool-lastige Workflows ausgelegt, mit großem 256-K-Kontext und günstigem Kurz-Prompt-Preis. Nur über Alibaba Cloud nutzbar und bei langen Prompts gestaffelt teurer; im AA Intelligence Index 24 (AA-Schätzung), AA Coding 26, dazu LMArena-Elo 1435.

Intelligenz24

Anthropic · proprietär

Claude Fable 5

Benchmark-Spitze, wieder freigegeben

Auf dem Papier das stärkste Modell des Katalogs – Spitzenwerte in allen vier unabhängigen Messungen. Nach der rund dreiwöchigen US-Exportsperre (12.06.–30.06.2026) hat das Handelsministerium die Kontrollen aufgehoben; Anthropic stellt den Zugang ab dem 01.07.2026 wieder her. Höchster Preis der Claude-Reihe – die Empfehlung hängt am Budget und am Bedarf für anspruchsvollstes Reasoning bzw. kreatives Schreiben.

Intelligenz60

Meta · open-weight

Llama 4 Maverick

Kontext-Spezialist

Mit bis zu 10 Mio. Token das größte Kontextfenster im Katalog – aber der niedrigste Human-Präferenz-Elo (1327). Lohnt vor allem für extrem lange Kontexte und Self-Hosting, weniger für Spitzen-Antwortqualität.

Intelligenz14

Anthropic · proprietär

Claude Opus 4.8

vom Nachfolger Opus 5 abgelöst

Bis zum 24.07.2026 der Spitzen-Allrounder – seither vom **preisgleichen** Claude Opus 5 abgelöst, das ihn laut System-Card in nahezu allen Disziplinen schlägt (FrontierBench 44,4 % vs. 18,7 %, OSWorld 2.0 70,6 % vs. 55,7 %) und zudem weit robuster gegen Prompt-Injection ist. Bleibt in den unabhängigen AA-Indizes vorerst der beste **gemessene** Claude-Wert (Agentic 78) – bis Artificial Analysis Opus 5 nachzieht – und dient Opus 5 als automatischer Fallback-Motor, wenn dessen Sicherheits-Classifier greifen.

Intelligenz56

Passende Werkzeuge

Alle Werkzeuge →

Agenten-ArbeitsplatzKostenpflichtig

Claude Cowork

Anthropic

Anthropics Agenten-Arbeitsplatz für Nicht-Entwickler: dieselbe Architektur wie Claude Code, „with no terminal required“ – Aufgabe übergeben, Claude arbeitet in ausgewählten Ordnern und angebundenen Diensten weiter.

KI-SucheFreemium

Perplexity

Perplexity AI

KI-„Antwortmaschine“: beantwortet Fragen mit zusammengefasstem Live-Websuchwissen und nennt die Quellen.

Kontext & WissensgraphOpen Source

Graphify

Graphify Labs (Safi Shamsi)

Quelloffener (MIT) Agenten-Skill, der jeden Ordner – Code, SQL-Schemas, Doku, PDFs, Bilder – in einen abfragbaren Wissensgraphen verwandelt, den ein Coding-Agent als Navigationskarte nutzt. Für Claude Code, Codex, Cursor u. a.

Dokument-KI & OCRKostenpflichtig

Mistral OCR 4

Mistral AI

Dokument-Verstehen statt bloßer Texterkennung: liest PDFs, Office-Dateien und Scans in 170 Sprachen und gibt strukturierte Daten mit Bounding-Boxes, Block-Typen und Konfidenzwerten zurück – als API oder selbst gehostet im eigenen Container.

Multi-Modell-OrchestrierungKostenpflichtig

OpenRouter Fusion

OpenRouter

Beta-Funktion von OpenRouter, die mehrere Modelle parallel an derselben Aufgabe arbeiten lässt und ein Judge-Modell die Antworten zu einer finalen Antwort zusammenführt.

Agenten-Skill (Recherche)Kostenlos

last30days

Matt Van Horn (Open Source)

Agenten-Skill, der eine Frage über Reddit, Hacker News, X, YouTube, GitHub, TikTok und weitere Plattformen recherchiert und zu einem belegten Kurzbericht verdichtet – die Mitte zwischen Websuche und Deep Research.