In MirrorCode bekommt ein Modell nur ausführbaren Zugriff auf ein Referenzprogramm – es darf es mit beliebigen Argumenten aufrufen und das Verhalten beobachten, sieht aber den Quellcode nicht. Aufgabe ist, das Programm vollständig nachzubauen; das verlangt, die Struktur des ganzen Programms selbst zu entwerfen, statt Code Stück für Stück zu übersetzen. Der Benchmark entstand zusammen mit METR und umfasst 25 Zielprogramme aus Bereichen wie Unix-Werkzeuge, Datenserialisierung, Bioinformatik, Interpreter, Kryptografie und Kompression; 22 davon hat Epoch zusammen mit dem Test-Gerüst quelloffen gestellt.
Im aktuellen Vergleich führt Claude Opus 4.7 mit einer Lösungsrate von 56 %, vor GPT-5.5 mit 44 % und Gemini 3.1 Pro Preview mit 32 %. Als Beleg für die Langzeit-Autonomie nennt Epoch die Bioinformatik-Toolsammlung „gotree“: rund 16.000 Zeilen Go-Code (Epoch zählt 16.905), die ein Modell eigenständig nachbaute – Arbeit, für die ein erfahrener Mensch laut Epoch zwischen zwei und 17 Wochen veranschlagt würde. Die längste durchgehende Aufgabe lief bis zu 19 Tage Modell-Arbeit ohne menschliches Eingreifen.
Einordnung: MirrorCode ist als Capability-Maß zu lesen, nicht als Produktivitäts-Versprechen – „ein Programm aus dem Verhalten nachbauen“ ist eine eng definierte Aufgabe mit vollständigen Tests als Zielvorgabe. Epoch betont selbst, dass die schwersten Programme weiterhin außer Reichweite bleiben und ein privates Test-Set zurückgehalten wird, um Überanpassung zu vermeiden. Frühere, vorläufige Ergebnisse hatte Epoch bereits mit Claude Opus 4.6 gezeigt; die hier genannte Rangliste stammt aus der aktuellen Auswertung.