Wofür · Entscheidungshilfe

Agenten & Automation

Mehrstufige, tool-nutzende und autonome Abläufe. Hier die kuratierten Empfehlungen – Modelle und Werkzeuge.

Empfohlene Modelle

Reihenfolge: zuerst unsere kuratierte Einstufung ( Spitze zuerst, dann solide, situativ, überholt), bei Gleichstand nach dem AA Agentic-Index (ersatzweise Terminal-Bench). Der Balken zeigt diesen Wert je Modell (länger = besser); markiert den besten Wert der Liste – er steht ggf. nicht oben, weil die Einstufung zuerst zählt.

Anthropic · proprietär

Claude Opus 5

Allrounder-Spitze (löst Opus 4.8 ab)

Nachfolger von Opus 4.8 zum unveränderten Preis (5 $/25 $ je Mio. Token). Die 193-seitige System-Card weist die größten Sprünge bei agentischem Coding, Computer-Use und langer Wissensarbeit aus; unabhängig verifiziert sind die drei ARC-AGI-Werte (u. a. 90,4 % auf ARC-AGI-2), zwei von Artificial Analysis gefahrene Profi-Arbeits-Ranglisten und seit dem 25.07. die AA-Composite-Indizes: Intelligenz 60,7 (Rang 1, vor Fable 5) und Coding 78,0 (Rang 2, 0,3 Punkte hinter GPT-5.6 Sol xhigh) – zum halben Fable-Preis. Erste Wahl für Agenten-, Computer-Use- und Wissensarbeit; Praxis-Stimmen mahnen allerdings, den Token-Verbrauch im Blick zu behalten, weil der halbe Listenpreis den Vorteil nur bringt, wenn er nicht gegenläuft.

Agentic89

OpenAI · proprietär

GPT-5.6 Sol

Coding-Spitze

Neues GPT-Flaggschiff, seit 9. Juli 2026 allgemein verfügbar. Führt den unabhängigen AA Coding Index an (77) – knapp vor der eigenen Mittel-Stufe Terra und Fable 5 – und liegt bei Allzweck-Intelligenz auf Rang 2 (59, nur hinter Fable 5). Erste Wahl für anspruchsvolles Coding und Long-Horizon-Agentik – der höchste Preis der Familie ($5 / $30) und ein METR-Vorbehalt zum Reward-Hacking bleiben die Abwägung.

Agentic88

Z.ai · open-weight

GLM-5.2

Open-Weight Agentic-Coding-Flaggschiff (MIT)

Z.ais neues vollständig offenes Flaggschiff (MIT): MoE wie GLM-5/5.1, jetzt mit nutzbarem 1-Mio.-Token-Kontext und neuer „max“-Reasoning-Stufe. Im AA Intelligence Index 51 / Coding 69 das stärkste Open-Weight-Modell des Katalogs und nahe an den proprietären Spitzen – frei self-hostbar, auf lange agentische Coding-Horizonte ausgelegt.

Agentic78

Google · proprietär

Gemini 3.5 Flash

Preis-Leistungs-Tipp

Der Preis-Leistungs-Ausreißer: Intelligence-Index 50 (über Sonnet 4.6 und dem teureren Gemini 3.1 Pro) und Agentic 70 – zum Bruchteil des Flaggschiff-Preises. Auch beim Coding stark (70) – die empfehlenswerte Default-Wahl für Tempo und Volumen.

Agentic70

Google · proprietär

Gemini 3.1 Pro

Multimodal-Spezialist

Erste Wahl für breit multimodale Arbeit – Bild, Video, Audio und PDF, was sonst kein Flaggschiff im Katalog leistet. Beim Coding (69) stärker, als der Allzweck-Wert (46) vermuten lässt, und günstiger als die Index-Spitze. Höchster Human-Präferenz-Elo nach dem gesperrten Fable 5.

Agentic59

OpenAI · proprietär

GPT-5.6 Terra

Preis-Leistungs-Tipp

Ausgewogene Mittel-Stufe, seit 9. Juli 2026 allgemein verfügbar – und der Preis-Leistungs-Fund der Familie: unabhängig gemessen (AA, max) erreicht Terra GPT-5.5 (AA-Intelligence-Index 55 = 55; AA Coding Index 77 vs. 75) zu einem Bruchteil des Preises. Seit dem 30. Juli 2026 kostet Terra $2 / $12 statt $2,50 / $15 – 20 Prozent weniger. Nur beim Allzweck-Reasoning liegt das Flaggschiff Sol (59) vorn. Die runde Wahl für kostenbewusste Allzweck-, Coding- und Agenten-Arbeit.

Agentic88

xAI · proprietär

Grok 4.5

Frontier-nah, in der EU noch gesperrt

xAIs neues Flaggschiff spielt beim Coding erstmals in der proprietären Spitzengruppe (AA Coding Index 72 – gleichauf mit Sonnet 5, knapp hinter Opus 4.8/GPT-5.5) und liegt in der Allzweck-Intelligenz nur wenig hinter Opus 4.8. Bremsen: proprietär, für EU-Nutzer bei Redaktionsschluss noch nicht über die API-Konsole freigegeben, und agentische Verlässlichkeit (AA Agentic/τ²) bisher nicht unabhängig gemessen.

Eingeschränkt verfügbar

Agentic82

OpenAI · proprietär

GPT-5.6 Luna

Schnell & günstig

Schnellste und günstigste 5.6-Stufe, seit 9. Juli 2026 allgemein verfügbar – und seit dem 30. Juli 2026 um 80 Prozent verbilligt: **$0,20 / $1,20** statt $1 / $6 je Million Ein-/Ausgabe-Token. Unabhängig gemessen (AA, max) solide für den Preis: AA-Intelligence-Index 51, AA Coding Index 71 – unter GPT-5.5 (55 / 75), aber nun zu einem Fünfundzwanzigstel des Sol-Eingabepreises und mit rund 231 Tokens/s die schnellste der drei. Die Wahl für Hochvolumen- und latenzkritische Aufgaben.

Agentic81

OpenAI · proprietär

GPT-5.5

Bewährtes Coding-Flaggschiff

Starkes, erprobtes Coding-Modell (AA Coding Index 75, Intelligenz 55). Seit dem GPT-5.6-Start (9.7.) beim selben Output-Preis ($30) von Sol überholt (77 / 59) und beim Coding auch von Terra und Fable 5 (je 77) eingeholt; dicht bei Opus 4.8 (74 / 56). Weiter eine gute Wahl, wo eine länger erprobte, stabile Option ohne den METR-Reward-Hacking-Vorbehalt von Sol zählt.

Agentic74

Moonshot AI · open-weight

Kimi K2.6

Open-Weight Agenten-/Coding-Schwergewicht

Open-Weight-MoE mit 1 Bio. Parametern (32 Mrd. aktiv), stark bei Long-Horizon-Coding und Agenten-Schwärmen. Im AA Intelligence Index 43 / Coding 62 (Coding führt) – eine der stärksten offenen Coding-/Agenten-Optionen, multimodal mit 256-K-Kontext.

Agentic66

MiniMax · open-weight

MiniMax-M3

Open-Weight Allzweck (1-Mio.-Kontext)

Open-Weight-Flaggschiff mit 1-Mio.-Token-Kontext und nativer Multimodalität (Text/Bild/Video-Eingabe) zum Kampfpreis ($0,30 / $1,20). Im AA Intelligence Index 44 / Coding 59 – starke, günstige Allzweck-/Coding-Wahl fürs Self-Hosting, wenn keine absolute Spitzenqualität nötig ist.

Agentic65

Tencent · open-weight

Hy3

Open-Weight Preis-Leistungs-Spitze (Apache 2.0)

Tencents Open-Weight-MoE unter voller Apache-2.0-Lizenz: 295 Mrd. Parameter, davon nur 21 Mrd. aktiv (192 Experten, Top-8-Routing). Im AA Intelligence Index 41 / Coding 59 – nicht die offene Spitze (dort steht GLM-5.2 mit 51/69), aber mit $0,14 / $0,58 je Mio. Token die mit Abstand **günstigste** Option dieser Klasse: gleiche Coding-Leistung wie DeepSeek V4 Pro zum Drittel des Preises.

Agentic64

Z.ai · open-weight

GLM-5.1

Open-Weight Agentic-Coding (MIT)

Vollständig offenes Flaggschiff (MIT) für agentisches Coding: MoE mit 744 Mrd. Gesamt-/40 Mrd. aktiven Parametern, 200-K-Kontext. Im AA Intelligence Index 40 / Coding 56 – solide, frei self-hostbare Coding-/Agenten-Wahl; reines Text-Modell (Vision liegt im separaten GLM-5V).

Agentic62

Anthropic · proprietär

Claude Sonnet 5

Tempo-Preis-Arbeitspferd

Nachfolger von Sonnet 4.6 mit deutlichem Sprung bei Agentic-Coding und Tool-Use, weiterhin klar günstiger als Opus 4.8/Mythos 5 und laut Anbieter nah an deren Niveau – aber kein Frontier-Modell: in der eigenen System Card sowohl bei den härtesten Coding-/Agentic-Werten als auch bei Cybersicherheits-Fähigkeiten hinter Opus 4.8.

Agentic: kein Vergleichswert

Alibaba · proprietär

Qwen3-Max

Agentic-Allzweck (Alibaba Cloud)

Auf mehrstufige, tool-lastige Workflows ausgelegt, mit großem 256-K-Kontext und günstigem Kurz-Prompt-Preis. Nur über Alibaba Cloud nutzbar und bei langen Prompts gestaffelt teurer; im AA Intelligence Index 24 (AA-Schätzung), AA Coding 26, dazu LMArena-Elo 1435.

Agentic: kein Vergleichswert

Anthropic · proprietär

Claude Fable 5

Benchmark-Spitze, wieder freigegeben

Auf dem Papier das stärkste Modell des Katalogs – Spitzenwerte in allen vier unabhängigen Messungen. Nach der rund dreiwöchigen US-Exportsperre (12.06.–30.06.2026) hat das Handelsministerium die Kontrollen aufgehoben; Anthropic stellt den Zugang ab dem 01.07.2026 wieder her. Höchster Preis der Claude-Reihe – die Empfehlung hängt am Budget und am Bedarf für anspruchsvollstes Reasoning bzw. kreatives Schreiben.

Agentic81

OpenBMB · open-weight

MiniCPM5-1B

Kognitiver Kern fürs Gerät

Nicht auf Benchmark-Spitzen gebaut, sondern auf die Idee des „kognitiven Kerns“: ein 1-Mrd.-Parameter-Modell, das lokal auf Consumer-Hardware – bis hin zum Smartphone oder im Browser – laufen soll und Reasoning plus Tool-Use behält, statt Enzyklopädie-Wissen in den Gewichten zu horten. Apache-2.0-offen, mit dem gesamten Trainings-Rezept. Empfehlung dort, wo On-Device-/Offline-Betrieb und ein winziger Footprint wichtiger sind als absolute Leistung.

Agentic: kein Vergleichswert

Cohere · proprietär

Command A+

Enterprise & Souveränität

Auf souveräne/Enterprise-Deployments zugeschnitten (läuft effizient auf 1× B200 oder 2× H100), mit Vision und mehrsprachiger Stärke. Im unabhängigen AA Intelligence Index 23 (AA Coding 28); kein öffentlicher Token-Preis – Einordnung über AA-Indizes und die Anbieter-Spezifikation.

Agentic: kein Vergleichswert

DeepReinforce · open-weight

Ornith 1.0

Selbst-gerüstetes Open-Source-Agentic-Coding (MIT)

DeepReinforces neue offene Coding-Familie (9B/31B Dense, 35B/397B MoE, MIT), post-trainiert auf Gemma 4 und Qwen 3.5. Kernidee: Das Modell lernt nicht nur Code, sondern sein eigenes RL-Scaffold (Agenten-Harness) selbst. Anbieter-Benchmarks setzen das 397B-Flaggschiff nahe an die proprietäre Spitze (SWE-bench Pro Verified 82,4 %) – unabhängig aber noch nicht gemessen. Interessant fürs Self-Hosting und agentisches Coding; für ein belastbares Urteil fehlen unabhängige Zahlen.

Agentic: kein Vergleichswert

Anthropic · proprietär

Claude Opus 4.8

vom Nachfolger Opus 5 abgelöst

Bis zum 24.07.2026 der Spitzen-Allrounder – seither vom **preisgleichen** Claude Opus 5 abgelöst, das ihn laut System-Card in nahezu allen Disziplinen schlägt (FrontierBench 44,4 % vs. 18,7 %, OSWorld 2.0 70,6 % vs. 55,7 %) und zudem weit robuster gegen Prompt-Injection ist. Bleibt in den unabhängigen AA-Indizes vorerst der beste **gemessene** Claude-Wert (Agentic 78) – bis Artificial Analysis Opus 5 nachzieht – und dient Opus 5 als automatischer Fallback-Motor, wenn dessen Sicherheits-Classifier greifen.

Agentic78

Passende Werkzeuge

Alle Werkzeuge →

Agenten-ArbeitsplatzKostenpflichtig

Claude Cowork

Anthropic

Anthropics Agenten-Arbeitsplatz für Nicht-Entwickler: dieselbe Architektur wie Claude Code, „with no terminal required“ – Aufgabe übergeben, Claude arbeitet in ausgewählten Ordnern und angebundenen Diensten weiter.

Coding-AgentKostenpflichtig

Claude Code

Anthropic

Agentisches Coding-Werkzeug von Anthropic – im Terminal, als Desktop-App, in der IDE und im Browser.

Coding-AgentKostenpflichtig

Codex

OpenAI

OpenAIs agentisches Coding-Werkzeug – im Terminal, in der IDE, als Desktop-App und als Cloud-Agent, der Aufgaben eigenständig abarbeitet.

Coding-AgentFreemium

Devin

Cognition

Autonomer KI-Softwareentwickler von Cognition: plant Aufgaben, setzt sie in einer eigenen Umgebung um und liefert Pull-Requests.

Coding-EditorFreemium

Cursor

Anysphere

KI-Code-Editor (IDE) mit Agenten, Autocomplete und Codebase-Verständnis.

Coding-EditorFreemium

Google Antigravity

Google

Googles agentische Entwicklungsplattform – IDE plus Manager-Oberfläche, die mehrere Agenten parallel arbeiten lässt.

Coding-AssistentFreemium

GitHub Copilot

GitHub (Microsoft)

Der am weitesten verbreitete KI-Coding-Assistent – Autovervollständigung, Chat und Agentenmodus, tief in GitHub integriert.

Coding-Agent

LM Studio Bionic

LM Studio

Agentische App von LM Studio, die offene Modelle lokal & kostenlos zu echten Agenten macht – Dateien analysieren, Präsentationen und Code bauen. Positioniert als lokale, datenhoheitswahrende Alternative zu ChatGPT-Codex bzw. Claude Cowork.

FrameworkOpen Source

eve

Vercel

Quelloffenes (Apache 2.0), „filesystem-first“ Agenten-Framework von Vercel: Ein Agent ist schlicht ein Verzeichnis aus Dateien – Produktions-Fähigkeiten wie Durable Execution, Sandbox und Human-in-the-Loop sind eingebaut. Beta.

FrameworkOpen Source

LangChain

Open-Source-Framework zum Bauen von LLM-Anwendungen und Agenten.

Coding-AgentOpen Source

Hermes Agent

Nous Research

Quelloffener (MIT), lokal laufender autonomer Agent von Nous Research, der aus vergangenen Läufen eigene „Skills“ lernt – modellunabhängig (Anthropic, MiniMax, OpenRouter u. a.).

Kontext & WissensgraphOpen Source

Graphify

Graphify Labs (Safi Shamsi)

Quelloffener (MIT) Agenten-Skill, der jeden Ordner – Code, SQL-Schemas, Doku, PDFs, Bilder – in einen abfragbaren Wissensgraphen verwandelt, den ein Coding-Agent als Navigationskarte nutzt. Für Claude Code, Codex, Cursor u. a.

Kontext & WissensgraphOpen Source

OpenWiki

LangChain

Quelloffenes (MIT) CLI von LangChain, das für eine Codebasis automatisch eine agentengerechte Doku-Wiki erzeugt und über die Git-History aktuell hält – damit Coding-Agenten wissen, wo welche Logik liegt und warum sie so gebaut wurde.

Agenten-OptimierungKostenlos

SkillOpt

Microsoft Research

Quelloffener Optimierer (Microsoft Research), der die Skill-Datei eines Agenten wie einen trainierbaren Parameter behandelt – ohne die Modellgewichte oder den Prompt von Hand anzufassen.

Multi-Modell-OrchestrierungKostenpflichtig

OpenRouter Fusion

OpenRouter

Beta-Funktion von OpenRouter, die mehrere Modelle parallel an derselben Aufgabe arbeiten lässt und ein Judge-Modell die Antworten zu einer finalen Antwort zusammenführt.

Frontend & DesignFreemium

Paper

„Agenten-nativer“ Design-Canvas: eine Figma-artige Fläche, deren Inhalt echtes HTML/CSS ist und die ein Coding-Agent (Claude Code, Cursor u. a.) über einen MCP-Server direkt lesen und beschreiben kann – Design und Code ohne Übergabe-Bruch.

Agenten-EvaluationOpen Source

Harbor

Terminal-Bench-Team

Quelloffenes Eval-Harness für lang laufende, zustandsbehaftete Agenten: jede Aufgabe läuft in einer eigenen isolierten Sandbox mit deterministischem Verifier (Test-Skript) – vom Team hinter Terminal-Bench.

Frontend & DesignOpen Source

Astryx

Buzz

Block, Inc.

Quelloffener, selbst betreibbarer Team-Arbeitsraum, in dem Menschen und KI-Agenten dieselben Kanäle teilen – jeder Agent mit eigenem kryptografischen Schlüsselpaar, jede Aktion als signiertes Ereignis in einem gemeinsamen Prüfprotokoll.

Agenten-WerkzeugOpen Source

Flint

Microsoft Research

Zwischensprache für Diagramme: Das Modell beschreibt in rund zehn Zeilen JSON nur die Bedeutung der Daten, ein deterministischer Compiler trifft alle geometrischen Entscheidungen und erzeugt daraus Vega-Lite, ECharts, Chart.js, Plotly oder native Excel-Diagramme.

Agenten-Skill (Recherche)Kostenlos

last30days

Matt Van Horn (Open Source)

Agenten-Skill, der eine Frage über Reddit, Hacker News, X, YouTube, GitHub, TikTok und weitere Plattformen recherchiert und zu einem belegten Kurzbericht verdichtet – die Mitte zwischen Websuche und Deep Research.