Artificial Analysis – ein unabhängiger Benchmark-Anbieter – hat den AA-Briefcase-Benchmark veröffentlicht. Er prüft Modelle nicht an isolierten Fragen, sondern an komplexen Projekten mit „thousands of input source files“: 91 Aufgaben aus den vier Wissensarbeit-Feldern Data Science, Produktmanagement, Banken-Operations und Schwerindustrie-Strategie. Bewertet wird, ob ein Modell alle Anforderungen einer Aufgabe erfüllt.
Das Ergebnis fällt ernüchternd aus: Das führende Modell, Claude Fable 5, erfüllt nur bei 3 % der Aufgaben sämtliche Kriterien korrekt. Bei 31 der 91 Aufgaben übertrifft kein getestetes Modell die 50-%-Marke. In der Elo-Wertung folgen auf Fable 5 Claude Opus 4.8 (max) und GLM-5.2 (max), mit GPT-5.5 (xhigh) auf Rang vier; getestet wurden Modelle von Anthropic, OpenAI, Google, DeepSeek, Alibaba und weiteren.
Einordnend wichtig: Der Benchmark misst eine besonders harte Spielart von Arbeit – langes, mehrstufiges Vorgehen über große, unstrukturierte Dateimengen, wie sie reale Projekte mitbringen. Dass selbst das beste Modell hier nur einen einstelligen Prozentsatz „vollständig korrekt“ schafft, sagt weniger über ein einzelnes Modell als über den Reifegrad autonomer Wissensarbeit insgesamt. Die ausführliche Einordnung steht im Wissensartikel zur Zukunft der Arbeit.