DepescheForschung15. Juni 2026

WorkBench, zwei Jahre später: Arbeitsplatz-Agenten von 43 % auf 98 %

Ein Preprint misst den Benchmark WorkBench neu: Wo der beste Agent (GPT-4) im März 2024 noch 43 % der Büroaufgaben löste und bei 26 % eine schädliche Fehlhandlung beging (etwa eine E-Mail an die falsche Person), schafft der beste Agent im Juni 2026 (Claude Fable 5) 98 % bei nur 1,9 % schädlichen Aktionen.

Aussagen gegen die Quellen geprüft · 9. Juli 2026

WorkBench testet, ob KI-Agenten typische Büroaufgaben erledigen, ohne dabei schädliche unbeabsichtigte Aktionen auszulösen. Im März 2024 löste der damals beste Agent (GPT-4) 43 % der Aufgaben und beging bei 26 % eine schädliche Fehlhandlung – etwa eine E-Mail an den falschen Empfänger.

Die Neuauflage (Preprint vom 10. Juni 2026, Autoren Olly Styles und Sam Miller) misst im Juni 2026: Der beste Agent (Claude Fable 5) schafft 98 % bei nur noch 1,9 % schädlichen Aktionen. Sicherheit und Leistung korrelieren positiv – ein Zielkonflikt „fähiger = gefährlicher“ zeigt sich hier nicht. drückten zudem die Kosten für mittlere Performance deutlich.

Einordnung: Es handelt sich um einen nicht peer-reviewten Preprint eines kleinen Autorenteams; die Zahlen sind als Momentaufnahme zu lesen, nicht als endgültiges Maß. Auch bleiben „grundlegende Fehler“ (falsche Empfänger) bestehen – der Grund, warum produktive Agenten weiter menschliche Aufsicht brauchen.