Das AI Security Institute (AISI) – das KI-Sicherheitsinstitut der britischen Regierung – hat am 2. Juli 2026 unter dem Titel „More compute, more capability“ eine Analyse veröffentlicht, die den Zusammenhang zwischen zugestandenem Rechenbudget und gemessener Agenten-Leistung über mehrere Aufgabenfelder (Cybersecurity, Software-Engineering, Mathematik/akademische Aufgaben, Gesundheit) untersucht.
Kernbefund: Erhöht man das Token-Budget von 1 auf 10 Millionen, steigt die Erfolgsrate bei Software-Engineering-Aufgaben laut Studie um rund 25 Prozentpunkte und bei Mathematik- und akademischen Aufgaben um rund 22. Im Cybersecurity-Feld wurden etwa 8 Prozent der Aufgaben erst gelöst, als das Budget 10 Millionen Tokens überschritt – einzelne Aufgaben brauchten bis zu 50 Millionen. Für die Cyber-Auswertung wurden nach AISI-Angaben elf Frontier-Modelle (April 2025 bis April 2026), für Software-Engineering rund zwanzig Modelle herangezogen.
Daraus folgt die zentrale These: Die Fähigkeit eines KI-Agenten ist kein fester Punkt, sondern eine Kurve über dem Test-Time-Compute. Evaluierungen mit knapp gedeckeltem Budget unterschätzen die tatsächlichen Fähigkeiten systematisch – besonders bei neueren Modellen, die zusätzliches Rechnen besser in Ergebnis umsetzen. AISI leitet daraus ab, dass Agenten-Evaluierungen das Rechenbudget explizit ausweisen und variieren müssen, um belastbar zu sein.
Einordnung: Die genannten Zahlen stammen aus der AISI-Veröffentlichung selbst (Primärquelle) und wurden von Fachmedien nachgezeichnet. Die Studie ist eine Momentaufnahme über die untersuchten Benchmarks und Modelle; sie sagt nichts darüber, dass mehr Compute in jeder Domäne beliebig skaliert, sondern dass fixe Budgets die Messung verzerren.