Forschung29. Juni 2026neu

CEO-Bench: KI-Modelle scheitern als Start-up-Chef – ein simpler Regel-Agent schlägt fast alle

Princeton-Forscher (Haozhe Chen, Karthik Narasimhan, Zhuang Liu) ließen in „CEO-Bench“ 13 KI-Modelle je dreimal 500 simulierte Tage lang ein fiktives Software-Start-up führen – mit 1 Mio. $ Startkapital und 34 Management-Werkzeugen. Nur drei Modelle übertrafen im besten Lauf das Startkapital (Claude Fable 5 ~47,1 Mio. $, Claude Opus 4.8 ~27,8 Mio. $, GPT-5.5 ~21,3 Mio. $); ein handcodierter, regelbasierter Agent ohne ML kam auf 15,8 Mio. $ und schlug damit jedes andere Sprachmodell.

Im Setup verwaltet jedes Modell über eine Python-Schnittstelle das fiktive Software-Start-up „NovaMind“: 500 simulierte Tage, 1 Mio. $ Startkapital, 34 Werkzeuge für Preisgestaltung, Produktdesign und Marketing, dazu dynamische Märkte, Konkurrenzdruck, Konjunkturzyklen und verknüpfte Geschäftsdatenbanken. Getestet wurden 13 Modelle mit je drei Durchläufen (39 Läufe insgesamt); gewertet wird der Endkontostand.

Nur drei Modelle schlossen ihren besten Lauf über dem Startkapital ab: Claude Fable 5 mit rund 47,1 Mio. $, Claude Opus 4.8 mit rund 27,8 Mio. $ und GPT-5.5 mit rund 21,3 Mio. $. Das Paper formuliert bewusst vorsichtig: Über mehrere Läufe hinweg blieb allein Fable 5 verlässlich im Plus, während Opus 4.8 und GPT-5.5 „nicht zuverlässig“ profitabel wirtschafteten. Die übrigen zehn Modelle – darunter Qwen 3.7 Max, Claude Opus 4.7, Kimi K2.6, GLM-5.2 und Claude Sonnet 4.6 – verfehlten das Startkapital, mehrere endeten bei 0 $.

Der schärfste Befund ist der Vergleichsmaßstab: Ein von Hand programmierter, regelbasierter Agent ohne maschinelles Lernen erreichte 15,8 Mio. $ und übertraf damit jedes Sprachmodell außer den drei Spitzenreitern. Eine simple, fest kodierte Wirtschaftslogik schlägt also die große Mehrheit der KI-Modelle bei einer mehrhundert-tägigen Geschäftsführung. Primärquelle ist das arXiv-Paper „CEO-Bench: Can Agents Play the Long Game?“ samt Projektseite mit Bestenliste; die genannten Endstände stammen von dieser Bestenliste, deutschsprachig berichtete heise. Die Fable-5-Zahl trägt laut heise einen Vorbehalt: Teile des Laufs wurden wegen Sicherheitsbeschränkungen mit Opus gefahren.