Der Remote Labor Index zieht 240 abgeschlossene Freelance-Projekte (Gesamtwert 143.991 Dollar, im Schnitt 633 Dollar und 28,9 Stunden Bearbeitungszeit) von 358 verifizierten Upwork-Freelancern aus 23 Domänen – darunter 3D/CAD, Architektur, Grafik- und Videodesign, Animation, Audio, Datenanalyse und Web-Apps. Ein KI-Agent gilt als erfolgreich, wenn ein „vernünftiger Kunde die Arbeit annehmen würde“; menschliche Fachleute vergleichen das Ergebnis mit einer Referenzarbeit bezahlter Profis.
Die zentrale Kennziffer „Automation Rate“ (Anteil der Projekte, in denen die KI-Arbeit menschliche Qualität erreicht oder übertrifft) kletterte in acht Monaten vom besten Wert 2,5 auf 16,1 Prozent – eine gut vierfache Steigerung. Die Spitze hält Fable 5 mit 16,1 Prozent (bewertet auf 218 von 240 Projekten, bevor die US-Regierung den Zugang beschränkte), gefolgt von Opus 4.8 mit 8,3 und Codex/GPT-5.5 mit 6,3 Prozent.
Einordnung: Der RLI stammt von Scale Labs (in Zusammenarbeit mit dem Center for AI Safety) und ist damit eine unabhängige, reproduzierbar dokumentierte Messung – kein Anbieter-Eigenbenchmark. Die Aussage ist doppelt zu lesen: Der Fortschritt der Agenten bei echter, bezahlter Wissensarbeit ist real und schnell; zugleich scheitern selbst Spitzenmodelle noch an über vier Fünfteln der Profi-Aufträge. Neben der Automation Rate weist das Board auch Elo-Wert, verdiente Dollar und Kostenersparnis aus.