DepescheForschung2. Juli 2026neu

Remote Labor Index: KI-Agenten erledigen viermal mehr Freelance-Aufträge als vor acht Monaten

Der Remote Labor Index (RLI) von Scale Labs (mit dem Center for AI Safety) misst, wie oft KI-Agenten echte, bezahlte Freelance-Projekte in vom Kunden akzeptierter Qualität abliefern – über 240 reale Upwork-Aufträge im Wert von rund 144.000 Dollar. Die Spitzen-„Automation Rate“ stieg binnen acht Monaten von 2,5 auf 16,1 Prozent (Fable 5); Opus 4.8 erreicht 8,3, Codex/GPT-5.5 6,3 Prozent.

Der Remote Labor Index zieht 240 abgeschlossene Freelance-Projekte (Gesamtwert 143.991 Dollar, im Schnitt 633 Dollar und 28,9 Stunden Bearbeitungszeit) von 358 verifizierten Upwork-Freelancern aus 23 Domänen – darunter 3D/CAD, Architektur, Grafik- und Videodesign, Animation, Audio, Datenanalyse und Web-Apps. Ein KI-Agent gilt als erfolgreich, wenn ein „vernünftiger Kunde die Arbeit annehmen würde“; menschliche Fachleute vergleichen das Ergebnis mit einer Referenzarbeit bezahlter Profis.

Die zentrale Kennziffer „Automation Rate“ (Anteil der Projekte, in denen die KI-Arbeit menschliche Qualität erreicht oder übertrifft) kletterte in acht Monaten vom besten Wert 2,5 auf 16,1 Prozent – eine gut vierfache Steigerung. Die Spitze hält Fable 5 mit 16,1 Prozent (bewertet auf 218 von 240 Projekten, bevor die US-Regierung den Zugang beschränkte), gefolgt von Opus 4.8 mit 8,3 und Codex/GPT-5.5 mit 6,3 Prozent.

Einordnung: Der RLI stammt von Scale Labs (in Zusammenarbeit mit dem Center for AI Safety) und ist damit eine unabhängige, reproduzierbar dokumentierte Messung – kein Anbieter-Eigenbenchmark. Die Aussage ist doppelt zu lesen: Der Fortschritt der Agenten bei echter, bezahlter Wissensarbeit ist real und schnell; zugleich scheitern selbst Spitzenmodelle noch an über vier Fünfteln der Profi-Aufträge. Neben der Automation Rate weist das Board auch Elo-Wert, verdiente Dollar und Kostenersparnis aus.