Wofür · Entscheidungshilfe

Schreiben & Texten

Verfassen, überarbeiten und zusammenfassen. Hier die kuratierten Empfehlungen – Modelle und Werkzeuge.

Empfohlene Modelle

Reihenfolge: zuerst unsere kuratierte Einstufung ( Spitze zuerst, dann solide, situativ, überholt), bei Gleichstand nach der menschlichen LMArena-Blind-Präferenz – mangels echtem Schreib-Benchmark das beste verfügbare Proxy für Ausgabequalität. Der Balken zeigt diesen Wert je Modell (länger = besser); markiert den besten Wert der Liste – er steht ggf. nicht oben, weil die Einstufung zuerst zählt.

OpenAI · proprietär

GPT-5.4

Günstige GPT-Allzweck

Das kostensensitive GPT: halber Input-/Output-Preis von GPT-5.5 bei gleichem 1-Mio.-Kontext. Im unabhängigen AA Intelligence Index 51 (knapp unter GPT-5.5 mit 55), AA Coding Index 71 – eine solide, preisstarke Allzweck-Wahl statt Spitzenreiter.

Human-Präferenz1468 Elo

Mistral AI · open-weight

Mistral Large 3

Open-Weight für EU/Souverän

Günstigstes Flaggschiff ($0,50 / $1,50) und Apache-2.0-offen – damit self-hosted und für souveräne EU-Deployments geeignet. Im AA Intelligence Index 16 (AA-Schätzung, vollständige unabhängige Eval ausstehend), AA Coding 20 – solide statt Spitze.

Human-Präferenz1416 Elo

Anthropic · proprietär

Claude Sonnet 5

Tempo-Preis-Arbeitspferd

Nachfolger von Sonnet 4.6 mit deutlichem Sprung bei Agentic-Coding und Tool-Use, weiterhin klar günstiger als Opus 4.8/Mythos 5 und laut Anbieter nah an deren Niveau – aber kein Frontier-Modell: in der eigenen System Card sowohl bei den härtesten Coding-/Agentic-Werten als auch bei Cybersicherheits-Fähigkeiten hinter Opus 4.8.

Human-Präferenz: kein Vergleichswert

Moonshot AI · open-weight

Kimi K2.6

Open-Weight Agenten-/Coding-Schwergewicht

Open-Weight-MoE mit 1 Bio. Parametern (32 Mrd. aktiv), stark bei Long-Horizon-Coding und Agenten-Schwärmen. Im AA Intelligence Index 43 / Coding 62 (Coding führt) – eine der stärksten offenen Coding-/Agenten-Optionen, multimodal mit 256-K-Kontext.

Human-Präferenz: kein Vergleichswert

Anthropic · proprietär

Claude Fable 5

Benchmark-Spitze, wieder freigegeben

Auf dem Papier das stärkste Modell des Katalogs – Spitzenwerte in allen vier unabhängigen Messungen. Nach der rund dreiwöchigen US-Exportsperre (12.06.–30.06.2026) hat das Handelsministerium die Kontrollen aufgehoben; Anthropic stellt den Zugang ab dem 01.07.2026 wieder her. Höchster Preis der Claude-Reihe – die Empfehlung hängt am Budget und am Bedarf für anspruchsvollstes Reasoning bzw. kreatives Schreiben.

Human-Präferenz1510 Elo

xAI · proprietär

Grok 4.3

Von DeepSeek-V4 überholt

DeepSeek-V4-Pro erreicht alle drei AA-Indizes höher und kostet weniger pro Token – nach der Preis-Leistungs-Logik damit die bessere Wahl. Grok 4.3 bleibt situativ interessant für ein gemanagtes Produkt mit X-Anbindung und großem 1-Mio.-Kontext.

Human-Präferenz1443 Elo

Cohere · proprietär

Command A+

Enterprise & Souveränität

Auf souveräne/Enterprise-Deployments zugeschnitten (läuft effizient auf 1× B200 oder 2× H100), mit Vision und mehrsprachiger Stärke. Im unabhängigen AA Intelligence Index 23 (AA Coding 28); kein öffentlicher Token-Preis – Einordnung über AA-Indizes und die Anbieter-Spezifikation.

Human-Präferenz: kein Vergleichswert