DepescheForschung3. Juli 2026neu

Britisches AI Security Institute: Standard-Benchmarks unterschätzen KI-Agenten – mehr Rechenbudget, deutlich mehr Fähigkeit

Das britische AI Security Institute (AISI) zeigt in einer am 2. Juli 2026 veröffentlichten Studie über mehrere Agenten-Benchmarks, dass die gemessenen Fähigkeiten stark vom zugestandenen Rechenbudget (Test-Time-Compute) abhängen. Wird das Token-Budget von 1 auf 10 Millionen erhöht, steigt die Erfolgsrate bei Software-Engineering-Aufgaben um rund 25 Prozentpunkte und bei Mathematik/akademischen Aufgaben um rund 22. Rund 8 Prozent der Cybersecurity-Aufgaben wurden erst ab 10 Millionen Tokens gelöst, einzelne erst bei bis zu 50 Millionen.

Aussagen gegen die Quellen geprüft · 3. Juli 2026

Das AI Security Institute (AISI) – das KI-Sicherheitsinstitut der britischen Regierung – hat am 2. Juli 2026 unter dem Titel „More compute, more capability“ eine Analyse veröffentlicht, die den Zusammenhang zwischen zugestandenem Rechenbudget und gemessener Agenten-Leistung über mehrere Aufgabenfelder (Cybersecurity, Software-Engineering, Mathematik/akademische Aufgaben, Gesundheit) untersucht.

Kernbefund: Erhöht man das Token-Budget von 1 auf 10 Millionen, steigt die Erfolgsrate bei Software-Engineering-Aufgaben laut Studie um rund 25 Prozentpunkte und bei Mathematik- und akademischen Aufgaben um rund 22. Im Cybersecurity-Feld wurden etwa 8 Prozent der Aufgaben erst gelöst, als das Budget 10 Millionen Tokens überschritt – einzelne Aufgaben brauchten bis zu 50 Millionen. Für die Cyber-Auswertung wurden nach AISI-Angaben elf Frontier-Modelle (April 2025 bis April 2026), für Software-Engineering rund zwanzig Modelle herangezogen.

Daraus folgt die zentrale These: Die Fähigkeit eines KI-Agenten ist kein fester Punkt, sondern eine Kurve über dem Test-Time-Compute. Evaluierungen mit knapp gedeckeltem Budget unterschätzen die tatsächlichen Fähigkeiten systematisch – besonders bei neueren Modellen, die zusätzliches Rechnen besser in Ergebnis umsetzen. AISI leitet daraus ab, dass Agenten-Evaluierungen das Rechenbudget explizit ausweisen und variieren müssen, um belastbar zu sein.

Einordnung: Die genannten Zahlen stammen aus der AISI-Veröffentlichung selbst (Primärquelle) und wurden von Fachmedien nachgezeichnet. Die Studie ist eine Momentaufnahme über die untersuchten Benchmarks und Modelle; sie sagt nichts darüber, dass mehr Compute in jeder Domäne beliebig skaliert, sondern dass fixe Budgets die Messung verzerren.