Nachschlagen

Glossar

KI ist voller Fachjargon. Hier stehen die wichtigsten Begriffe rund um Modelle, Benchmarks und Betrieb – kurz und verständlich erklärt. Dieselben Erklärungen erscheinen überall auf der Seite als Tooltip an den markierten Begriffen.

AA-Agentic

Agentic-Teilindex von Artificial Analysis (unabhängig, 0–100): misst, wie gut ein Modell mehrstufige, werkzeugnutzende Aufgaben eigenständig löst.

Mehr im Wissen →
AA-Coding

Coding-Teilindex von Artificial Analysis (unabhängig, 0–100): bündelt mehrere Programmier-Benchmarks zu einem Wert für die Code-Fähigkeit eines Modells.

Mehr im Wissen →
AA-Intelligenz

Zusammengesetzter Intelligenz-Index von Artificial Analysis (unabhängig, 0–100): bündelt mehrere Reasoning-, Wissens- und Mathe-Benchmarks zu einer Zahl. Je höher, desto stärker das allgemeine Reasoning.

Mehr im Wissen →
Elo (LMArena)

Human-Präferenz-Wertung aus der LMArena: Menschen vergleichen blind zwei Modellantworten, daraus entsteht – wie beim Schach – eine Elo-Zahl. Höher = häufiger bevorzugt. Misst Präferenz, nicht Korrektheit.

Mehr im Wissen →
Inferenz

Der laufende Betrieb eines fertig trainierten Modells – das Erzeugen von Antworten auf Anfragen. Anders als das einmalige Training fällt Inferenz bei jeder Nutzung an.

Mehr im Wissen →
Kontextfenster

Die maximale Textmenge (in Tokens), die ein Modell pro Anfrage gleichzeitig „im Blick“ hat – Eingabe plus bisheriger Verlauf. Ist es voll, fällt Älteres aus dem Kontext.

Mehr im Wissen →
MoE (Mixture of Experts)

Architektur, bei der je Anfrage nur ein Teil des Modells („Experten“) aktiv wird. So hat das Modell sehr viele Gesamt-Parameter, rechnet aber nur mit wenigen aktiven – das spart Rechenzeit.

Mehr im Wissen →
multimodal

Ein Modell ist multimodal, wenn es mehr als nur Text verarbeitet – etwa Bilder, Audio oder Video als Eingabe versteht (manche erzeugen sie auch als Ausgabe).

Mehr im Wissen →
open-weight

Modell, dessen trainierte Gewichte öffentlich herunterladbar sind, sodass man es selbst (lokal oder auf eigener Hardware) betreiben kann. Nicht zwingend vollständig quelloffen – die Lizenz bestimmt die erlaubte Nutzung.

Mehr im Wissen →
Parameter

Die im Training gelernten „Stellschrauben“ eines Modells (gezählt in Milliarden). Mehr Parameter heißt grob mehr Kapazität, aber auch mehr Rechen- und Speicherbedarf – und sagt allein wenig über die Qualität.

Mehr im Wissen →
Pareto-Dominanz

Ein Modell „dominiert“ ein anderes, wenn es in allen verglichenen Maßen mindestens gleich gut ist und dabei nicht teurer – dann gibt es keinen Grund, das unterlegene zu wählen. Grundlage der „stärker bei gleichem oder geringerem Preis“-Einordnung.

Mehr im Wissen →
Preis-Leistung

Hier: AA-Intelligenz geteilt durch den (3:1 gewichteten) Token-Preis – Indexpunkte je Dollar pro Mio. Tokens. Höher = mehr Leistung fürs Geld. Entspricht der „Intelligence vs. Price“-Sicht von Artificial Analysis.

Mehr im Wissen →
proprietär

Modell, das nur über die API oder das Produkt des Anbieters nutzbar ist; die Gewichte werden nicht veröffentlicht. Gegenstück zu open-weight.

Mehr im Wissen →
Quantisierung

Verfahren, das die Gewichte eines Modells mit weniger Bits speichert (z. B. 4 statt 16). Das senkt Speicher- und Hardwarebedarf deutlich, kostet aber etwas Genauigkeit – wichtig fürs lokale Betreiben.

Mehr im Wissen →
RAG

Retrieval-Augmented Generation: dem Modell werden zur Anfrage passende Textstellen aus einer eigenen Wissensquelle beigelegt, damit es daraus antwortet statt nur aus dem Training. Reduziert Halluzinationen und hält Wissen aktuell.

Mehr im Wissen →
Self-Hosting

Ein (meist open-weight) Modell auf eigener Hardware oder in der eigenen Cloud betreiben, statt die API eines Anbieters zu nutzen. Bringt Datenhoheit und Kostenkontrolle, erfordert aber eigene Infrastruktur.

Mehr im Wissen →
Sicherheitsstufe

Anbieter-Einstufung des Risikoniveaus eines Modells (z. B. Anthropics ASL-Stufen oder „Cyber: High“). Höhere Stufen lösen strengere Schutzmaßnahmen aus. Stammt aus der System-Card – Eigenangabe des Anbieters.

Mehr im Wissen →
System-Card

Das offizielle Begleitdokument eines Anbieters zu einem Modell (auch „Model Card“): Fähigkeiten, Grenzen, Sicherheitsbewertung. Primärquelle – die Fähigkeitsangaben darin sind aber Eigenangaben, nicht unabhängig gemessen.

Mehr im Wissen →
Terminal-Bench

Ausführungsbasierter Benchmark (0–100 %): das Modell löst echte Shell-/Terminal-Aufgaben in einer Sandbox, gewertet wird, ob das Ergebnis wirklich funktioniert. Dadurch kontaminationsärmer als reine Wissensquizze.

Mehr im Wissen →
Thinking / Reasoning

Modus, in dem ein Modell vor der Antwort sichtbare Zwischenschritte „durchdenkt“. Das hebt die Qualität bei schweren Aufgaben, kostet aber mehr Tokens und Zeit – oft über einen Aufwand-Regler steuerbar.

Mehr im Wissen →
Tier (A/B/C)

Verlässlichkeits-Stufe einer Quelle in der KI-Depesche: A = Primärquelle (z. B. offizielle Doku), B = solide Sekundärquelle, C = subjektiv/Einzelstimme. Steuert, wie stark eine Aussage gewichtet wird.

Mehr im Wissen →
Token

Die kleinste Verarbeitungseinheit eines Sprachmodells – ein Wortstück, kein ganzes Wort. Faustregel: rund 1.000 Tokens entsprechen grob 750 deutschen Wörtern. Preise und Kontextlängen werden in Tokens gerechnet.

Mehr im Wissen →
Tool-Calling

Fähigkeit eines Modells, strukturiert externe Werkzeuge oder Funktionen aufzurufen (Suche, Code ausführen, APIs) und deren Ergebnisse weiterzuverwenden. Die Grundlage für Agenten.

Mehr im Wissen →
Wissensstichtag

Der Zeitpunkt, bis zu dem die Trainingsdaten eines Modells reichen („knowledge cutoff“). Über spätere Ereignisse weiß das Modell von sich aus nichts – es sei denn, sie werden ihm in der Anfrage mitgegeben.

Mehr im Wissen →
τ²-bench

Benchmark für die Verlässlichkeit beim Werkzeug-Einsatz: dieselbe Aufgabe wird viele Male wiederholt, gemessen wird, wie konstant das Modell die Tools korrekt bedient (0–100 %).

Mehr im Wissen →