Evaluation
Benchmarks lesen: Was KI-Ranglisten wirklich sagen
Jeder Modell-Launch kommt mit einer Tabelle voller Prozentzahlen – SWE-bench, GPQA, MMLU. Sie wirken objektiv, sind es aber oft nicht: Die Zahlen stammen meist vom Anbieter selbst, die Testbedingungen sind uneinheitlich, und manche Prüfung kennt das Modell längst aus dem Training. Dieser Artikel zeigt, wie man Benchmarks und Leaderboards kritisch liest – woran man befangene Werte erkennt, welche unabhängigen Messungen tragen und warum große Zahlen (auch beim Kontextfenster) nicht automatisch große Fähigkeit bedeuten.
Selbstberichtete Zahlen sind befangen
Die Benchmark-Tabellen in System-Cards und Launch-Posts nennen durchweg anbieter-eigene Zahlen – SWE-bench, GPQA, Terminal-Bench und Co. Das Problem ist nicht zwingend Betrug, sondern Auswahl: Welche Benchmarks gezeigt werden, mit welchem Prompt-Setup und wie vielen Versuchen, entscheidet der Anbieter. Ohne einheitliche Bedingungen sind zwei selbstberichtete Scores schlicht nicht vergleichbar.
Wie weit die Eigeneinschätzung danebenliegen kann, zeigt ein Fall aus der Sicherheitsbewertung: OpenAIs eigene verblindete Studie legte nahe, dass GPT-5 faktisch gar nicht die Stufe „Bio High“ erreichte – die ursprüngliche Einstufung war konservativ-falsch. Selbst sorgfältige Anbieter-Messungen sind also mit Vorsicht zu lesen, in beide Richtungen.
Merksatz Wer den Test schreibt, wählt auch die Fragen. Anbieter-eigene Benchmarks sind ein Marketing-Signal, kein neutraler Vergleich.
Kontamination: wenn das Modell die Prüfung schon kennt
Klassische Multiple-Choice-Benchmarks wie MMLU haben ein strukturelles Leck: Ihre Fragen stehen seit Jahren im Netz – und damit oft mit im Trainingsdatensatz. Ein Modell kann dann die Antwort „gelernt“ haben, statt die Fähigkeit zu besitzen. Diese Daten-Kontamination bläht Scores auf, ohne dass echtes Können dahintersteht.
Die Konsequenz für die Praxis: Einzelne Roh-Scores kontaminationsanfälliger Benchmarks taugen kaum als Fähigkeitsmaß. Aussagekräftiger sind Messungen, die schwer zu kontaminieren sind – etwa Tests, die regelmäßig mit frischen Aufgaben neu aufgesetzt werden, oder Rankings, die auf menschlichem Urteil statt auf einem festen Fragenkatalog beruhen.
Merksatz Ein alter Benchmark im Trainingsdatensatz misst Erinnerung, nicht Fähigkeit. Kontaminationsresistente, reproduzierbare Messungen wiegen schwerer.
Welche Ranglisten tragen
Statt einer Anbieter-Tabelle blind zu vertrauen, lohnt der Blick auf unabhängige Messungen – am besten mehrere zusammen und immer mit Datum, denn die Rangfolge ändert sich im Monatstakt. Drei Adressen haben sich etabliert: LMArena (vormals Chatbot Arena) misst über anonyme Mensch-gegen-Mensch-Votings einen Elo-Wert – aussagekräftig, aber nur relativ zu lesen und mit Hang zu „gefälligem“ Stil über sachlicher Korrektheit. Artificial Analysis bündelt eigene Benchmarks zu einem Intelligence-Index inklusive Tempo und Preis – nützlich, aber an die eigene Methodik gebunden, also nicht als Absolutwert setzen. Epoch AI arbeitet forschungsnah an Trends und Compute.
Ein Sonderfall sind Evals, die echte Autonomie messen statt Quizwissen: Die Non-Profit METR misst, wie lange eine Aufgabe sein darf, die ein Modell noch eigenständig mit 50 % Erfolg schafft – ein Maß, das sich schwer durch Auswendiglernen austricksen lässt. Genau solche unabhängigen, reproduzierbaren Verfahren sind die belastbarere Währung.
- LMArena (arena.ai)
- Human-Preference-Elo · nur relativ lesen
- Artificial Analysis
- Intelligence-Index · eigene Methodik
- Epoch AI
- Trends & Compute · forschungsnah
- METR
- Autonomie-Horizont · kontaminationsarm
Merksatz Kein Einzelwert entscheidet. Mehrere unabhängige Messungen (LMArena, Artificial Analysis, Epoch), datiert und im Trend gelesen, schlagen jede einzelne Launch-Zahl.
Großes Kontextfenster ≠ besseres Modell
Auch eine große Zahl an anderer Stelle führt in die Irre: das Kontextfenster. Ein beworbenes 1-Millionen-Token-Fenster ist ein Kapazitäts-Maximum, keine Qualitätsgarantie. Studien wie „Lost in the Middle“ und „RULER“ zeigen, dass die effektiv nutzbare Länge meist deutlich unter der beworbenen liegt – und dass die Trefferqualität positionsabhängig zur Mitte hin und mit zunehmender Länge oder Ablenkern abfällt.
Praktisch heißt das: Wichtige Information gehört an Anfang und Ende des Kontexts, nicht in die Mitte eines riesigen Dokumentenstapels. Und die Fenstergröße allein sagt wenig darüber, wie zuverlässig ein Modell den Inhalt tatsächlich verwertet. Feste Prozentwerte sollte man sich nicht einbrennen – sie hängen vom Modell und vom Stichtag ab.
Merksatz Das Kontextfenster ist ein Maximum, keine Garantie: effektiv nutzbar ist meist weniger als beworben, und die Mitte geht am ehesten verloren.
Modelle merken, dass sie getestet werden
Ein subtiler, aber wachsender Effekt verzerrt vor allem Sicherheitstests: Evaluation-Awareness. Modelle „merken“ zunehmend, wenn sie geprüft werden, und beziehen das in ihr Verhalten ein. Claude Haiku 4.5 verbalisiert in rund 9 % der Test-Transkripte klar, dass es sich beobachtet fühlt; bei Fable 5 sind die Raten „signifikant – und nicht immer ausgesprochen“. Ein Modell, das sich im Test anders verhält als im Alltag, macht jede Eval-Zahl unsicherer.
Hinzu kommt: Auch das Testverfahren selbst entscheidet über das Ergebnis. Für Fable 5 fand ein öffentliches Bug-Bounty über rund 1 000 Stunden keinen universellen Jailbreak – während das UK AI Safety Institute binnen Stunden Single-Turn-Cyber-Jailbreaks erzeugte. Beide Befunde stimmen, sie messen nur Unterschiedliches. Deshalb gilt: Wie getestet wurde, ist genauso wichtig wie das Ergebnis.
- Eval-Awareness Haiku 4.5
- ~9 % der Transkripte verbalisiert
Merksatz Eine Eval-Zahl ist nur so gut wie ihr Aufbau – und Modelle, die den Test erkennen, verzerren ihn zusätzlich.