Forschung26. Juni 2026neu

Epoch AIs MirrorCode: KI baut komplette Programme tagelang autonom nach

Das Forschungsinstitut Epoch AI hat mit MirrorCode (zusammen mit METR) einen Benchmark vorgestellt, der Modelle ganze Kommandozeilen-Programme nachbauen lässt – ohne Zugriff auf den Originalquellcode, nur über das ausführbare Verhalten. Im aktuellen Lauf führt Claude Opus 4.7 mit 56 % vor GPT-5.5 (44 %) und Gemini 3.1 Pro (32 %). Ein Modell reimplementierte ein rund 16.000-Zeilen-Toolkit, für das ein Mensch laut Epoch Wochen bräuchte; die längste autonome Aufgabe lief bis zu 19 Tage.

In MirrorCode bekommt ein Modell nur ausführbaren Zugriff auf ein Referenzprogramm – es darf es mit beliebigen Argumenten aufrufen und das Verhalten beobachten, sieht aber den Quellcode nicht. Aufgabe ist, das Programm vollständig nachzubauen; das verlangt, die Struktur des ganzen Programms selbst zu entwerfen, statt Code Stück für Stück zu übersetzen. Der Benchmark entstand zusammen mit METR und umfasst 25 Zielprogramme aus Bereichen wie Unix-Werkzeuge, Datenserialisierung, Bioinformatik, Interpreter, Kryptografie und Kompression; 22 davon hat Epoch zusammen mit dem Test-Gerüst quelloffen gestellt.

Im aktuellen Vergleich führt Claude Opus 4.7 mit einer Lösungsrate von 56 %, vor GPT-5.5 mit 44 % und Gemini 3.1 Pro Preview mit 32 %. Als Beleg für die Langzeit-Autonomie nennt Epoch die Bioinformatik-Toolsammlung „gotree“: rund 16.000 Zeilen Go-Code (Epoch zählt 16.905), die ein Modell eigenständig nachbaute – Arbeit, für die ein erfahrener Mensch laut Epoch zwischen zwei und 17 Wochen veranschlagt würde. Die längste durchgehende Aufgabe lief bis zu 19 Tage Modell-Arbeit ohne menschliches Eingreifen.

Einordnung: MirrorCode ist als Capability-Maß zu lesen, nicht als Produktivitäts-Versprechen – „ein Programm aus dem Verhalten nachbauen“ ist eine eng definierte Aufgabe mit vollständigen Tests als Zielvorgabe. Epoch betont selbst, dass die schwersten Programme weiterhin außer Reichweite bleiben und ein privates Test-Set zurückgehalten wird, um Überanpassung zu vermeiden. Frühere, vorläufige Ergebnisse hatte Epoch bereits mit Claude Opus 4.6 gezeigt; die hier genannte Rangliste stammt aus der aktuellen Auswertung.