DepescheForschung12. Juni 2026

FrontierCode: neuer Coding-Benchmark misst Mergebarkeit statt nur Korrektheit

Mit FrontierCode hat das KI-Unternehmen Cognition einen Coding-Benchmark vorgestellt, der nicht nur prüft, ob KI-generierter Code läuft, sondern ob menschliche Maintainer ihn tatsächlich in ein Projekt übernehmen würden. Bewertet werden Korrektheit, Tests, Umfang, Stil und Wartbarkeit anhand von Maintainer-Rubriken.

Aussagen gegen die Quellen geprüft · 9. Juli 2026

FrontierCode bewertet, ob Coding-Agenten „mergebare“, produktionsreife Pull Requests liefern. Statt reiner Bestehensquote fließen Dimensionen wie Regressions-Sicherheit, Sauberkeit, Umfangstreue, Testkorrektheit und Wartbarkeit ein – bewertet über Rubriken, die erfahrene Open-Source-Maintainer erstellt haben. Laut Cognition steckt in jeder Aufgabe über 40 Stunden Maintainer-Arbeit.

Der Benchmark ist in drei verschachtelten Teilmengen organisiert: Diamond (die 50 härtesten Aufgaben), Main (100) und Extended (150 Aufgaben insgesamt).

Cognition ordnet FrontierCode als „Epochenwechsel“ ein: von Autocomplete (2021) über das Bestehen von Tests (2023) hin zu wartbarem Code (2026). Im vom Anbieter veröffentlichten Snapshot führt Claude Opus 4.8 das schwerste Teilset (Diamond) mit rund 13 % an – die niedrigen Absolutwerte unterstreichen, wie weit selbst die besten Modelle von verlässlich mergebarem Code entfernt sind.

Einordnung: Cognition baut mit dem Agenten Devin selbst ein Coding-Produkt; ein hauseigener Benchmark ist daher nicht interessenfrei, und die Snapshot-Werte sind früh und vom Anbieter publiziert. Die Methodik (Maintainer-Rubriken, Mergebarkeit) ist dennoch ein bemerkenswerter Schritt weg von reinen Pass-Raten.