Agentic Engineering
KI-Coding: Agenten statt Autocomplete
Programmieren ist das Feld, in dem KI gerade am sichtbarsten umgepflügt wird. Aus dem Autocomplete im Editor sind Agenten geworden, die ganze Aufgaben übernehmen – planen, Code schreiben, testen, nachbessern. Dieser Artikel trennt das Belegte vom Hype: was Zahlen und Primärquellen hergeben, was sich in der Praxis bewährt, und wo die Aufsicht des Menschen unersetzlich bleibt.
Vom Tippen zum Dirigieren
Der Anteil von Code, den KI schreibt, ist an der Spitze bereits hoch. Anthropic berichtet, dass im zweiten Quartal 2026 über 80 % des in die eigene Produktion eingespielten Codes von Claude stammten – vor dem Start von Claude Code Anfang 2025 lag dieser Wert noch im einstelligen Prozentbereich. Typische Entwickelnde spielen laut Anthropic rund achtmal so viel Code pro Tag ein wie 2024; das Unternehmen nennt diese Zahl selbst „mit ziemlicher Sicherheit eine Überzeichnung“ des echten Produktivitätsgewinns.
Damit verschiebt sich die Arbeit: weg vom Schreiben einzelner Zeilen, hin zum Steuern von Agenten. Ein Agent ist – in Abgrenzung zum festen Programmablauf (Workflow) – ein System, in dem das Modell seinen eigenen Ablauf und Werkzeugeinsatz dynamisch selbst bestimmt: Es plant mehrschrittig, ruft Werkzeuge auf und arbeitet an Rückmeldungen aus der Umgebung weiter.
- Code bei Anthropic von Claude
- > 80 % (Q2 2026)
- Vorher (Anfang 2025)
- einstelliger Prozentbereich
Merksatz Die Frage ist immer seltener „Wie tippe ich das?“ und immer öfter „Wie führe ich den Agenten?“.
Der Aufgaben-Horizont wächst
Wie lang darf eine Aufgabe sein, die ein Modell eigenständig schafft? Die Forschungsorganisation METR misst genau das – die Länge der Aufgaben, die ein Modell mit 50 % Erfolg autonom erledigt – und stellt fest: Dieser Horizont verdoppelt sich seit 2019 etwa alle sieben Monate, seit 2024 sogar rund alle drei Monate.
Konkret als Größenordnung: GPT-4 (2023) schaffte Aufgaben von wenigen Minuten, ein Modell von Mitte 2025 schon rund anderthalb Stunden, Anfang 2026 lag die Spitze bei mehreren Stunden. Wichtig ist das Kleingedruckte: Es ist eine 50-%-Erfolgsmarke, kein „gelöst“. Agenten greifen nach immer längeren Aufgabenketten – verlässlich erledigt sind sie damit noch nicht.
- Verdopplung des Horizonts
- ~ alle 7 Monate (seit 2024: ~3)
- 2023 → Anfang 2026
- Minuten → mehrere Stunden
Wie ein Agenten-System im Maßstab aussieht
Ein gut dokumentiertes Praxisbeispiel ist Cloudflares automatisierte Code-Review: rund 131.000 KI-Reviews pro Monat über etwa 5.000 Code-Repositories, zum Median von ungefähr einem Dollar je Review und in gut drei Minuten. Der Clou ist die Aufteilung: Statt eines Alleskönners prüfen bis zu sieben spezialisierte Agenten (für Sicherheit, Performance, Code-Qualität, Dokumentation, Release-Management, Compliance), und ein Koordinator-Agent fasst zusammen, entdoppelt und filtert.
Drei Techniken daraus lassen sich übertragen: Erstens skaliert man den Aufwand nach Risiko – eine triviale Änderung bekommt zwei Agenten, eine große die volle Suite; „kein Dream-Team für einen Tippfehler“. Zweitens bekommt jeder Agent nur seinen Ausschnitt (Context-Engineering – die für ihn relevanten Dateien plus geteilter Kontext), sonst vervielfachen sich die Kosten. Drittens streamt das System seine Zwischenschritte zeilenweise (als JSON-Lines), was Beobachtbarkeit und gezielte Wiederholungen erlaubt.
- Cloudflare-Code-Review
- ~ 131.000 Reviews/Monat, ~ 5.000 Repos
- Kosten / Tempo
- median ~ 1 $ je Review, ~ 3 min
- Agenten
- bis 7 Spezialisten + 1 Koordinator
Merksatz Nicht ein Universal-Agent, sondern viele fokussierte plus ein Koordinator – und Aufwand nach Risiko dosiert.
Praxis: was sich bewährt
Jenseits der belegten Fälle hat sich unter Praktikern eine Handvoll Faustregeln herausgebildet (Erfahrungswissen, kein hartes Studienergebnis – entsprechend zu behandeln). Die wichtigste: Verankere den Agenten in der Realität. Lass ihn nicht blind Code erzeugen, sondern gegen einen echten Prüfstein laufen – den Compiler, die Tests, ein Schema oder die laufende Anwendung samt Screenshot-Abgleich. Was der Agent nicht überprüfen kann, rät er notfalls zusammen.
Zweitens: Ziehe eine deterministische Kern-Grenze. Datenbank, Authentifizierung und Bezahlung gehören in harten, vorhersagbaren Code; nur Verbindungslogik, Oberfläche und Hilfsskripte sind ein guter Platz für agentische Dynamik. Drittens gilt: „Ein fokussierter Agent ist ein leistungsfähiger Agent“ – ein kleiner, klar umrissener Kontext senkt die Fehlerrate stärker, als auf ein noch größeres Kontextfenster zu warten.
Merksatz Lass den Agenten gegen die Realität prüfen – Tests, Compiler, die laufende App. Verifizierte Arbeit schlägt geratene.
Grenzen & Sicherheit
So beeindruckend die Werkzeuge sind – sie beschleunigen, sie ersetzen die Aufsicht nicht. KI-Modelle helfen, prüfen und beschleunigen, arbeiten aber nicht zuverlässig vollständig autonom; ein Fehler ohne Kontrolle kann teuer werden. Typisch ist die Code-Halluzination: Liest ein Agent eine leere oder falsche Datei, beschreibt er die vermeintliche Funktion mitunter als real, statt nachzuforschen. Ein leerer Treffer muss eine Untersuchung auslösen, keine Annahme.
Sicherheitskritisch ist vor allem der interne Agent mit Zugriff auf Produktivsysteme – weniger der Angreifer von außen. Hier gilt: Eine Positivliste erlaubter Befehle schlägt eine Sperrliste verbotener; am sichersten ist gar kein allgemeines Shell-Werkzeug, sondern nur explizit definierte Werkzeuge. „Das Risiko wächst mit der Laufzeit“: Je länger ein Agent läuft, desto eher verliert er die ursprüngliche Anweisung aus dem Blick. Setze deshalb unumkehrbare Aktionen (Daten löschen, Volumes leeren) auf null und mache Dateiänderungen über Versionskontrolle rückgängig-fähig.
Merksatz KI-Agenten beschleunigen – die Aufsicht ersetzen sie nicht. Sichere die unumkehrbaren Aktionen, nicht nur den Agenten.
Grundlagen zu Agenten, Tool-Use und MCP →Coding-Werkzeuge im Katalog →