Wofür · Entscheidungshilfe
Code schreiben, debuggen und reviewen. Hier die kuratierten Empfehlungen – Modelle, Werkzeuge und Tipps.
Anthropic · proprietär
Allrounder-Spitze
Stärkster praktisch verfügbarer Allrounder: führt den unabhängigen Intelligence- (56) und Agentic-Index (78). Nur beim reinen Coding liegt GPT-5.5 (59) knapp vorn – dort allerdings zu höherem Output-Preis. Erste Wahl, wo Tiefe und lange autonome Läufe zählen.
OpenAI · proprietär
Coding-Spitze
Führt den unabhängigen AA Coding Index (59) vor Opus 4.8 (57) – das beste gemessene Modell fürs Programmieren. Bei Allzweck-Intelligenz minimal hinter Opus und mit höherem Output-Preis ($30), daher vor allem dann erste Wahl, wenn Code-Qualität im Vordergrund steht.
Google · proprietär
Multimodal-Spezialist
Erste Wahl für breit multimodale Arbeit – Bild, Video, Audio und PDF, was sonst kein Flaggschiff im Katalog leistet. Beim Coding (55) stärker, als der Allzweck-Wert (46) vermuten lässt, und günstiger als die Index-Spitze. Höchster Human-Präferenz-Elo nach dem gesperrten Fable 5.
DeepSeek · open-weight
Open-Weight-Preis-Leistung
Der Preis-Leistungs-Sieger unter den offenen Gewichten: stärkstes Coding (47) und Agentic (67) seiner Preisklasse, dabei mit Abstand am günstigsten und selbst hostbar. Erste Wahl, wo Kosten, Datenhoheit oder lange Generierungen zählen – allerdings reine Text-Modalität.
Anthropic · proprietär
Tempo-Preis-Arbeitspferd
Die ausgewogene Standard-Wahl: rund 40 % günstiger als Opus 4.8 bei nur mäßig geringeren Werten. Kein Spitzenreiter bei den härtesten Aufgaben, aber kein gemessenes Modell übertrifft es bei gleichem oder geringerem Preis – damit weiterhin klar empfehlenswert für den Alltag.
OpenAI · proprietär
Günstige GPT-Allzweck
Das kostensensitive GPT: halber Input-/Output-Preis von GPT-5.5 bei gleichem 1-Mio.-Kontext. Unabhängige Capability-Indizes fehlen noch (bislang nur LMArena-Elo 1468), daher als solide Allzweck-Wahl statt Spitzenreiter eingestuft.
Alibaba · proprietär
Agentic-Allzweck (Alibaba Cloud)
Auf mehrstufige, tool-lastige Workflows ausgelegt, mit großem 256-K-Kontext und günstigem Kurz-Prompt-Preis. Nur über Alibaba Cloud nutzbar und bei langen Prompts gestaffelt teurer; unabhängig bislang nur per Elo (1435) belegt.
Anthropic · proprietär
Benchmark-Spitze, aktuell gesperrt
Auf dem Papier das stärkste Modell des Katalogs – Spitzenwerte in allen vier unabhängigen Messungen. Aber seit dem 12.06.2026 ist der Zugang weltweit ausgesetzt, das Modell also praktisch nicht nutzbar. Bis zur Wiederherstellung keine Empfehlung für den produktiven Einsatz.
Zugang ausgesetzt
xAI · proprietär
Von DeepSeek-V4 überholt
DeepSeek-V4-Pro erreicht alle drei AA-Indizes höher und kostet weniger pro Token – nach der Preis-Leistungs-Logik damit die bessere Wahl. Grok 4.3 bleibt situativ interessant für ein gemanagtes Produkt mit X-Anbindung und großem 1-Mio.-Kontext.
Anthropic
KI-Assistent von Anthropic für Text, Code und Analyse – im Browser und als App.
OpenAI
Der bekannteste KI-Chat-Assistent von OpenAI für Text, Bild und Code.
Anthropic
Agentisches Coding-Werkzeug von Anthropic für Terminal, IDE und Browser.
Anysphere
KI-Code-Editor (IDE) mit Agenten, Autocomplete und Codebase-Verständnis.
Hugging Face
Zentrale Plattform der ML-Community für Modelle, Datensätze und Demos.
LangChain
Open-Source-Framework zum Bauen von LLM-Anwendungen und Agenten.
Vercel
KI-Generator von Vercel, der aus einer Beschreibung Oberflächen und Web-Apps baut.
Lovable
KI-App-Builder: per Chat – auch aus einem Screenshot – komplette Web-Apps bauen.
StackBlitz
KI-Web-Builder von StackBlitz – baut im Browser, importiert Design-Systeme aus Figma.