Im Setup verwaltet jedes Modell über eine Python-Schnittstelle das fiktive Software-Start-up „NovaMind“: 500 simulierte Tage, 1 Mio. $ Startkapital, 34 Werkzeuge für Preisgestaltung, Produktdesign und Marketing, dazu dynamische Märkte, Konkurrenzdruck, Konjunkturzyklen und verknüpfte Geschäftsdatenbanken. Getestet wurden 13 Modelle mit je drei Durchläufen (39 Läufe insgesamt); gewertet wird der Endkontostand.
Nur drei Modelle schlossen ihren besten Lauf über dem Startkapital ab: Claude Fable 5 mit rund 47,1 Mio. $, Claude Opus 4.8 mit rund 27,8 Mio. $ und GPT-5.5 mit rund 21,3 Mio. $. Das Paper formuliert bewusst vorsichtig: Über mehrere Läufe hinweg blieb allein Fable 5 verlässlich im Plus, während Opus 4.8 und GPT-5.5 „nicht zuverlässig“ profitabel wirtschafteten. Die übrigen zehn Modelle – darunter Qwen 3.7 Max, Claude Opus 4.7, Kimi K2.6, GLM-5.2 und Claude Sonnet 4.6 – verfehlten das Startkapital, mehrere endeten bei 0 $.
Der schärfste Befund ist der Vergleichsmaßstab: Ein von Hand programmierter, regelbasierter Agent ohne maschinelles Lernen erreichte 15,8 Mio. $ und übertraf damit jedes Sprachmodell außer den drei Spitzenreitern. Eine simple, fest kodierte Wirtschaftslogik schlägt also die große Mehrheit der KI-Modelle bei einer mehrhundert-tägigen Geschäftsführung. Primärquelle ist das arXiv-Paper „CEO-Bench: Can Agents Play the Long Game?“ samt Projektseite mit Bestenliste; die genannten Endstände stammen von dieser Bestenliste, deutschsprachig berichtete heise. Die Fable-5-Zahl trägt laut heise einen Vorbehalt: Teile des Laufs wurden wegen Sicherheitsbeschränkungen mit Opus gefahren.