Wofür · Entscheidungshilfe

Programmieren

Code schreiben, debuggen und reviewen. Hier die kuratierten Empfehlungen – Modelle und Werkzeuge.

Empfohlene Modelle

Reihenfolge: zuerst unsere kuratierte Einstufung ( Spitze zuerst, dann solide, situativ, überholt), bei Gleichstand nach dem unabhängigen AA Coding-Index. Der Balken zeigt diesen Wert je Modell (länger = besser); markiert den besten Wert der Liste – er steht ggf. nicht oben, weil die Einstufung zuerst zählt.

Anthropic · proprietär

Claude Opus 5

Allrounder-Spitze (löst Opus 4.8 ab)

Nachfolger von Opus 4.8 zum unveränderten Preis (5 $/25 $ je Mio. Token). Die 193-seitige System-Card weist die größten Sprünge bei agentischem Coding, Computer-Use und langer Wissensarbeit aus; unabhängig verifiziert sind die drei ARC-AGI-Werte (u. a. 90,4 % auf ARC-AGI-2), zwei von Artificial Analysis gefahrene Profi-Arbeits-Ranglisten und seit dem 25.07. die AA-Composite-Indizes: Intelligenz 60,7 (Rang 1, vor Fable 5) und Coding 78,0 (Rang 2, 0,3 Punkte hinter GPT-5.6 Sol xhigh) – zum halben Fable-Preis. Erste Wahl für Agenten-, Computer-Use- und Wissensarbeit; Praxis-Stimmen mahnen allerdings, den Token-Verbrauch im Blick zu behalten, weil der halbe Listenpreis den Vorteil nur bringt, wenn er nicht gegenläuft.

Coding78

OpenAI · proprietär

GPT-5.6 Sol

Coding-Spitze

Neues GPT-Flaggschiff, seit 9. Juli 2026 allgemein verfügbar. Führt den unabhängigen AA Coding Index an (77) – knapp vor der eigenen Mittel-Stufe Terra und Fable 5 – und liegt bei Allzweck-Intelligenz auf Rang 2 (59, nur hinter Fable 5). Erste Wahl für anspruchsvolles Coding und Long-Horizon-Agentik – der höchste Preis der Familie ($5 / $30) und ein METR-Vorbehalt zum Reward-Hacking bleiben die Abwägung.

Coding77

Google · proprietär

Gemini 3.1 Pro

Multimodal-Spezialist

Erste Wahl für breit multimodale Arbeit – Bild, Video, Audio und PDF, was sonst kein Flaggschiff im Katalog leistet. Beim Coding (69) stärker, als der Allzweck-Wert (46) vermuten lässt, und günstiger als die Index-Spitze. Höchster Human-Präferenz-Elo nach dem gesperrten Fable 5.

Coding69

Z.ai · open-weight

GLM-5.2

Open-Weight Agentic-Coding-Flaggschiff (MIT)

Z.ais neues vollständig offenes Flaggschiff (MIT): MoE wie GLM-5/5.1, jetzt mit nutzbarem 1-Mio.-Token-Kontext und neuer „max“-Reasoning-Stufe. Im AA Intelligence Index 51 / Coding 69 das stärkste Open-Weight-Modell des Katalogs und nahe an den proprietären Spitzen – frei self-hostbar, auf lange agentische Coding-Horizonte ausgelegt.

Coding69

DeepSeek · open-weight

DeepSeek-V4-Pro

Open-Weight-Preis-Leistung

Der Preis-Leistungs-Sieger unter den offenen Gewichten: sehr starkes Coding (59) und Agentic (67) seiner Preisklasse, dabei mit Abstand am günstigsten und selbst hostbar. Erste Wahl, wo Kosten, Datenhoheit oder lange Generierungen zählen – allerdings reine Text-Modalität.

Coding59

OpenAI · proprietär

GPT-5.6 Terra

Preis-Leistungs-Tipp

Ausgewogene Mittel-Stufe, seit 9. Juli 2026 allgemein verfügbar – und der Preis-Leistungs-Fund der Familie: unabhängig gemessen (AA, max) erreicht Terra GPT-5.5 (AA-Intelligence-Index 55 = 55; AA Coding Index 77 vs. 75) zu einem Bruchteil des Preises. Seit dem 30. Juli 2026 kostet Terra $2 / $12 statt $2,50 / $15 – 20 Prozent weniger. Nur beim Allzweck-Reasoning liegt das Flaggschiff Sol (59) vorn. Die runde Wahl für kostenbewusste Allzweck-, Coding- und Agenten-Arbeit.

Coding77

OpenAI · proprietär

GPT-5.5

Bewährtes Coding-Flaggschiff

Starkes, erprobtes Coding-Modell (AA Coding Index 75, Intelligenz 55). Seit dem GPT-5.6-Start (9.7.) beim selben Output-Preis ($30) von Sol überholt (77 / 59) und beim Coding auch von Terra und Fable 5 (je 77) eingeholt; dicht bei Opus 4.8 (74 / 56). Weiter eine gute Wahl, wo eine länger erprobte, stabile Option ohne den METR-Reward-Hacking-Vorbehalt von Sol zählt.

Coding75

Anthropic · proprietär

Claude Sonnet 5

Tempo-Preis-Arbeitspferd

Nachfolger von Sonnet 4.6 mit deutlichem Sprung bei Agentic-Coding und Tool-Use, weiterhin klar günstiger als Opus 4.8/Mythos 5 und laut Anbieter nah an deren Niveau – aber kein Frontier-Modell: in der eigenen System Card sowohl bei den härtesten Coding-/Agentic-Werten als auch bei Cybersicherheits-Fähigkeiten hinter Opus 4.8.

Coding72

xAI · proprietär

Grok 4.5

Frontier-nah, in der EU noch gesperrt

xAIs neues Flaggschiff spielt beim Coding erstmals in der proprietären Spitzengruppe (AA Coding Index 72 – gleichauf mit Sonnet 5, knapp hinter Opus 4.8/GPT-5.5) und liegt in der Allzweck-Intelligenz nur wenig hinter Opus 4.8. Bremsen: proprietär, für EU-Nutzer bei Redaktionsschluss noch nicht über die API-Konsole freigegeben, und agentische Verlässlichkeit (AA Agentic/τ²) bisher nicht unabhängig gemessen.

Eingeschränkt verfügbar

Coding72

OpenAI · proprietär

GPT-5.6 Luna

Schnell & günstig

Schnellste und günstigste 5.6-Stufe, seit 9. Juli 2026 allgemein verfügbar – und seit dem 30. Juli 2026 um 80 Prozent verbilligt: **$0,20 / $1,20** statt $1 / $6 je Million Ein-/Ausgabe-Token. Unabhängig gemessen (AA, max) solide für den Preis: AA-Intelligence-Index 51, AA Coding Index 71 – unter GPT-5.5 (55 / 75), aber nun zu einem Fünfundzwanzigstel des Sol-Eingabepreises und mit rund 231 Tokens/s die schnellste der drei. Die Wahl für Hochvolumen- und latenzkritische Aufgaben.

Coding71

OpenAI · proprietär

GPT-5.4

Günstige GPT-Allzweck

Das kostensensitive GPT: halber Input-/Output-Preis von GPT-5.5 bei gleichem 1-Mio.-Kontext. Im unabhängigen AA Intelligence Index 51 (knapp unter GPT-5.5 mit 55), AA Coding Index 71 – eine solide, preisstarke Allzweck-Wahl statt Spitzenreiter.

Coding71

Moonshot AI · open-weight

Kimi K2.6

Open-Weight Agenten-/Coding-Schwergewicht

Open-Weight-MoE mit 1 Bio. Parametern (32 Mrd. aktiv), stark bei Long-Horizon-Coding und Agenten-Schwärmen. Im AA Intelligence Index 43 / Coding 62 (Coding führt) – eine der stärksten offenen Coding-/Agenten-Optionen, multimodal mit 256-K-Kontext.

Coding62

MiniMax · open-weight

MiniMax-M3

Open-Weight Allzweck (1-Mio.-Kontext)

Open-Weight-Flaggschiff mit 1-Mio.-Token-Kontext und nativer Multimodalität (Text/Bild/Video-Eingabe) zum Kampfpreis ($0,30 / $1,20). Im AA Intelligence Index 44 / Coding 59 – starke, günstige Allzweck-/Coding-Wahl fürs Self-Hosting, wenn keine absolute Spitzenqualität nötig ist.

Coding59

Tencent · open-weight

Hy3

Open-Weight Preis-Leistungs-Spitze (Apache 2.0)

Tencents Open-Weight-MoE unter voller Apache-2.0-Lizenz: 295 Mrd. Parameter, davon nur 21 Mrd. aktiv (192 Experten, Top-8-Routing). Im AA Intelligence Index 41 / Coding 59 – nicht die offene Spitze (dort steht GLM-5.2 mit 51/69), aber mit $0,14 / $0,58 je Mio. Token die mit Abstand **günstigste** Option dieser Klasse: gleiche Coding-Leistung wie DeepSeek V4 Pro zum Drittel des Preises.

Coding59

Z.ai · open-weight

GLM-5.1

Open-Weight Agentic-Coding (MIT)

Vollständig offenes Flaggschiff (MIT) für agentisches Coding: MoE mit 744 Mrd. Gesamt-/40 Mrd. aktiven Parametern, 200-K-Kontext. Im AA Intelligence Index 40 / Coding 56 – solide, frei self-hostbare Coding-/Agenten-Wahl; reines Text-Modell (Vision liegt im separaten GLM-5V).

Coding56

Alibaba · proprietär

Qwen3-Max

Agentic-Allzweck (Alibaba Cloud)

Auf mehrstufige, tool-lastige Workflows ausgelegt, mit großem 256-K-Kontext und günstigem Kurz-Prompt-Preis. Nur über Alibaba Cloud nutzbar und bei langen Prompts gestaffelt teurer; im AA Intelligence Index 24 (AA-Schätzung), AA Coding 26, dazu LMArena-Elo 1435.

Coding26

Anthropic · proprietär

Claude Fable 5

Benchmark-Spitze, wieder freigegeben

Auf dem Papier das stärkste Modell des Katalogs – Spitzenwerte in allen vier unabhängigen Messungen. Nach der rund dreiwöchigen US-Exportsperre (12.06.–30.06.2026) hat das Handelsministerium die Kontrollen aufgehoben; Anthropic stellt den Zugang ab dem 01.07.2026 wieder her. Höchster Preis der Claude-Reihe – die Empfehlung hängt am Budget und am Bedarf für anspruchsvollstes Reasoning bzw. kreatives Schreiben.

Coding76

xAI · proprietär

Grok 4.3

Von DeepSeek-V4 überholt

DeepSeek-V4-Pro erreicht alle drei AA-Indizes höher und kostet weniger pro Token – nach der Preis-Leistungs-Logik damit die bessere Wahl. Grok 4.3 bleibt situativ interessant für ein gemanagtes Produkt mit X-Anbindung und großem 1-Mio.-Kontext.

Coding42

OpenBMB · open-weight

MiniCPM5-1B

Kognitiver Kern fürs Gerät

Nicht auf Benchmark-Spitzen gebaut, sondern auf die Idee des „kognitiven Kerns“: ein 1-Mrd.-Parameter-Modell, das lokal auf Consumer-Hardware – bis hin zum Smartphone oder im Browser – laufen soll und Reasoning plus Tool-Use behält, statt Enzyklopädie-Wissen in den Gewichten zu horten. Apache-2.0-offen, mit dem gesamten Trainings-Rezept. Empfehlung dort, wo On-Device-/Offline-Betrieb und ein winziger Footprint wichtiger sind als absolute Leistung.

Coding: kein Vergleichswert

DeepReinforce · open-weight

Ornith 1.0

Selbst-gerüstetes Open-Source-Agentic-Coding (MIT)

DeepReinforces neue offene Coding-Familie (9B/31B Dense, 35B/397B MoE, MIT), post-trainiert auf Gemma 4 und Qwen 3.5. Kernidee: Das Modell lernt nicht nur Code, sondern sein eigenes RL-Scaffold (Agenten-Harness) selbst. Anbieter-Benchmarks setzen das 397B-Flaggschiff nahe an die proprietäre Spitze (SWE-bench Pro Verified 82,4 %) – unabhängig aber noch nicht gemessen. Interessant fürs Self-Hosting und agentisches Coding; für ein belastbares Urteil fehlen unabhängige Zahlen.

Coding: kein Vergleichswert

Anthropic · proprietär

Claude Opus 4.8

vom Nachfolger Opus 5 abgelöst

Bis zum 24.07.2026 der Spitzen-Allrounder – seither vom **preisgleichen** Claude Opus 5 abgelöst, das ihn laut System-Card in nahezu allen Disziplinen schlägt (FrontierBench 44,4 % vs. 18,7 %, OSWorld 2.0 70,6 % vs. 55,7 %) und zudem weit robuster gegen Prompt-Injection ist. Bleibt in den unabhängigen AA-Indizes vorerst der beste **gemessene** Claude-Wert (Agentic 78) – bis Artificial Analysis Opus 5 nachzieht – und dient Opus 5 als automatischer Fallback-Motor, wenn dessen Sicherheits-Classifier greifen.

Coding74

Passende Werkzeuge

Alle Werkzeuge →

Coding-AgentKostenpflichtig

Claude Code

Anthropic

Agentisches Coding-Werkzeug von Anthropic – im Terminal, als Desktop-App, in der IDE und im Browser.

Coding-AgentKostenpflichtig

Codex

OpenAI

OpenAIs agentisches Coding-Werkzeug – im Terminal, in der IDE, als Desktop-App und als Cloud-Agent, der Aufgaben eigenständig abarbeitet.

Coding-AgentFreemium

Devin

Cognition

Autonomer KI-Softwareentwickler von Cognition: plant Aufgaben, setzt sie in einer eigenen Umgebung um und liefert Pull-Requests.

Coding-AgentOpen Source

Aider

Open-Source-Projekt

Quelloffener KI-Paarprogrammierer fürs Terminal – ändert Dateien direkt im Git-Repo und committet jede Änderung.

Coding-EditorFreemium

Cursor

Anysphere

KI-Code-Editor (IDE) mit Agenten, Autocomplete und Codebase-Verständnis.

Coding-EditorFreemium

Google Antigravity

Google

Googles agentische Entwicklungsplattform – IDE plus Manager-Oberfläche, die mehrere Agenten parallel arbeiten lässt.

Coding-AssistentFreemium

GitHub Copilot

GitHub (Microsoft)

Der am weitesten verbreitete KI-Coding-Assistent – Autovervollständigung, Chat und Agentenmodus, tief in GitHub integriert.

Frontend & DesignFreemium

v0

Vercel

KI-Generator von Vercel, der aus einer Beschreibung Oberflächen und Web-Apps baut.

Frontend & DesignFreemium

Lovable

KI-App-Builder: per Chat – auch aus einem Screenshot – komplette Web-Apps bauen.

Frontend & DesignFreemium

Bolt

StackBlitz

KI-Web-Builder von StackBlitz – baut im Browser, importiert Design-Systeme aus Figma.

PlattformFreemium

Hugging Face

Zentrale Plattform der ML-Community für Modelle, Datensätze und Demos.

Coding-Agent

LM Studio Bionic

LM Studio

Agentische App von LM Studio, die offene Modelle lokal & kostenlos zu echten Agenten macht – Dateien analysieren, Präsentationen und Code bauen. Positioniert als lokale, datenhoheitswahrende Alternative zu ChatGPT-Codex bzw. Claude Cowork.

FrameworkOpen Source

eve

Vercel

Quelloffenes (Apache 2.0), „filesystem-first“ Agenten-Framework von Vercel: Ein Agent ist schlicht ein Verzeichnis aus Dateien – Produktions-Fähigkeiten wie Durable Execution, Sandbox und Human-in-the-Loop sind eingebaut. Beta.

FrameworkOpen Source

LangChain

Open-Source-Framework zum Bauen von LLM-Anwendungen und Agenten.

Coding-AgentOpen Source

Hermes Agent

Nous Research

Quelloffener (MIT), lokal laufender autonomer Agent von Nous Research, der aus vergangenen Läufen eigene „Skills“ lernt – modellunabhängig (Anthropic, MiniMax, OpenRouter u. a.).

Kontext & WissensgraphOpen Source

Graphify

Graphify Labs (Safi Shamsi)

Quelloffener (MIT) Agenten-Skill, der jeden Ordner – Code, SQL-Schemas, Doku, PDFs, Bilder – in einen abfragbaren Wissensgraphen verwandelt, den ein Coding-Agent als Navigationskarte nutzt. Für Claude Code, Codex, Cursor u. a.

Kontext & WissensgraphOpen Source

OpenWiki

LangChain

Quelloffenes (MIT) CLI von LangChain, das für eine Codebasis automatisch eine agentengerechte Doku-Wiki erzeugt und über die Git-History aktuell hält – damit Coding-Agenten wissen, wo welche Logik liegt und warum sie so gebaut wurde.

Agenten-OptimierungKostenlos

SkillOpt

Microsoft Research

Quelloffener Optimierer (Microsoft Research), der die Skill-Datei eines Agenten wie einen trainierbaren Parameter behandelt – ohne die Modellgewichte oder den Prompt von Hand anzufassen.

Agenten-EvaluationOpen Source

Harbor

Terminal-Bench-Team

Quelloffenes Eval-Harness für lang laufende, zustandsbehaftete Agenten: jede Aufgabe läuft in einer eigenen isolierten Sandbox mit deterministischem Verifier (Test-Skript) – vom Team hinter Terminal-Bench.

Agenten-PlattformOpen Source

Buzz

Block, Inc.

Quelloffener, selbst betreibbarer Team-Arbeitsraum, in dem Menschen und KI-Agenten dieselben Kanäle teilen – jeder Agent mit eigenem kryptografischen Schlüsselpaar, jede Aktion als signiertes Ereignis in einem gemeinsamen Prüfprotokoll.

Agenten-WerkzeugOpen Source

Flint

Microsoft Research

Zwischensprache für Diagramme: Das Modell beschreibt in rund zehn Zeilen JSON nur die Bedeutung der Daten, ein deterministischer Compiler trifft alle geometrischen Entscheidungen und erzeugt daraus Vega-Lite, ECharts, Chart.js, Plotly oder native Excel-Diagramme.