WorkBench, zwei Jahre später: Arbeitsplatz-Agenten von 43 % auf 89 %
Ein Preprint misst den Benchmark WorkBench neu: Wo der beste Agent (GPT-4) im März 2024 noch 43 % der Büroaufgaben löste und bei 26 % eine schädliche Fehlhandlung beging (etwa eine E-Mail an die falsche Person), schafft der beste Agent im Juni 2026 (Claude Opus 4.8) 89 % bei nur 2,5 % schädlichen Aktionen.
WorkBench testet, ob KI-Agenten typische Büroaufgaben erledigen, ohne dabei schädliche unbeabsichtigte Aktionen auszulösen. Im März 2024 löste der damals beste Agent (GPT-4) 43 % der Aufgaben und beging bei 26 % eine schädliche Fehlhandlung – etwa eine E-Mail an den falschen Empfänger.
Die Neuauflage (Preprint vom 15. Juni 2026, Autor Olly Styles) misst im Juni 2026: Der beste Agent (Claude Opus 4.8) schafft 89 % bei nur noch 2,5 % schädlichen Aktionen. Sicherheit und Leistung korrelieren positiv – ein Zielkonflikt „fähiger = gefährlicher“ zeigt sich hier nicht. Open-Weight-Modelle drückten zudem die Kosten für mittlere Performance deutlich.
Einordnung: Es handelt sich um einen nicht peer-reviewten Preprint einer Einzelperson; die Zahlen sind als Momentaufnahme zu lesen, nicht als endgültiges Maß. Auch bleiben „grundlegende Fehler“ (falsche Empfänger) bestehen – der Grund, warum produktive Agenten weiter menschliche Aufsicht brauchen.