Nachschlagen
KI ist voller Fachjargon. Hier stehen die wichtigsten Begriffe rund um Modelle, Benchmarks und Betrieb – kurz und verständlich erklärt. Dieselben Erklärungen erscheinen überall auf der Seite als Tooltip an den markierten Begriffen.
Agentic-Teilindex von Artificial Analysis (unabhängig, 0–100): misst, wie gut ein Modell mehrstufige, werkzeugnutzende Aufgaben eigenständig löst.
Mehr im Wissen →Coding-Teilindex von Artificial Analysis (unabhängig, 0–100): bündelt mehrere Programmier-Benchmarks zu einem Wert für die Code-Fähigkeit eines Modells.
Mehr im Wissen →Zusammengesetzter Intelligenz-Index von Artificial Analysis (unabhängig, 0–100): bündelt mehrere Reasoning-, Wissens- und Mathe-Benchmarks zu einer Zahl. Je höher, desto stärker das allgemeine Reasoning.
Mehr im Wissen →Human-Präferenz-Wertung aus der LMArena: Menschen vergleichen blind zwei Modellantworten, daraus entsteht – wie beim Schach – eine Elo-Zahl. Höher = häufiger bevorzugt. Misst Präferenz, nicht Korrektheit.
Mehr im Wissen →Der laufende Betrieb eines fertig trainierten Modells – das Erzeugen von Antworten auf Anfragen. Anders als das einmalige Training fällt Inferenz bei jeder Nutzung an.
Mehr im Wissen →Die maximale Textmenge (in Tokens), die ein Modell pro Anfrage gleichzeitig „im Blick“ hat – Eingabe plus bisheriger Verlauf. Ist es voll, fällt Älteres aus dem Kontext.
Mehr im Wissen →Architektur, bei der je Anfrage nur ein Teil des Modells („Experten“) aktiv wird. So hat das Modell sehr viele Gesamt-Parameter, rechnet aber nur mit wenigen aktiven – das spart Rechenzeit.
Mehr im Wissen →Ein Modell ist multimodal, wenn es mehr als nur Text verarbeitet – etwa Bilder, Audio oder Video als Eingabe versteht (manche erzeugen sie auch als Ausgabe).
Mehr im Wissen →Modell, dessen trainierte Gewichte öffentlich herunterladbar sind, sodass man es selbst (lokal oder auf eigener Hardware) betreiben kann. Nicht zwingend vollständig quelloffen – die Lizenz bestimmt die erlaubte Nutzung.
Mehr im Wissen →Die im Training gelernten „Stellschrauben“ eines Modells (gezählt in Milliarden). Mehr Parameter heißt grob mehr Kapazität, aber auch mehr Rechen- und Speicherbedarf – und sagt allein wenig über die Qualität.
Mehr im Wissen →Ein Modell „dominiert“ ein anderes, wenn es in allen verglichenen Maßen mindestens gleich gut ist und dabei nicht teurer – dann gibt es keinen Grund, das unterlegene zu wählen. Grundlage der „stärker bei gleichem oder geringerem Preis“-Einordnung.
Mehr im Wissen →Hier: AA-Intelligenz geteilt durch den (3:1 gewichteten) Token-Preis – Indexpunkte je Dollar pro Mio. Tokens. Höher = mehr Leistung fürs Geld. Entspricht der „Intelligence vs. Price“-Sicht von Artificial Analysis.
Mehr im Wissen →Modell, das nur über die API oder das Produkt des Anbieters nutzbar ist; die Gewichte werden nicht veröffentlicht. Gegenstück zu open-weight.
Mehr im Wissen →Verfahren, das die Gewichte eines Modells mit weniger Bits speichert (z. B. 4 statt 16). Das senkt Speicher- und Hardwarebedarf deutlich, kostet aber etwas Genauigkeit – wichtig fürs lokale Betreiben.
Mehr im Wissen →Retrieval-Augmented Generation: dem Modell werden zur Anfrage passende Textstellen aus einer eigenen Wissensquelle beigelegt, damit es daraus antwortet statt nur aus dem Training. Reduziert Halluzinationen und hält Wissen aktuell.
Mehr im Wissen →Ein (meist open-weight) Modell auf eigener Hardware oder in der eigenen Cloud betreiben, statt die API eines Anbieters zu nutzen. Bringt Datenhoheit und Kostenkontrolle, erfordert aber eigene Infrastruktur.
Mehr im Wissen →Anbieter-Einstufung des Risikoniveaus eines Modells (z. B. Anthropics ASL-Stufen oder „Cyber: High“). Höhere Stufen lösen strengere Schutzmaßnahmen aus. Stammt aus der System-Card – Eigenangabe des Anbieters.
Mehr im Wissen →Das offizielle Begleitdokument eines Anbieters zu einem Modell (auch „Model Card“): Fähigkeiten, Grenzen, Sicherheitsbewertung. Primärquelle – die Fähigkeitsangaben darin sind aber Eigenangaben, nicht unabhängig gemessen.
Mehr im Wissen →Ausführungsbasierter Benchmark (0–100 %): das Modell löst echte Shell-/Terminal-Aufgaben in einer Sandbox, gewertet wird, ob das Ergebnis wirklich funktioniert. Dadurch kontaminationsärmer als reine Wissensquizze.
Mehr im Wissen →Modus, in dem ein Modell vor der Antwort sichtbare Zwischenschritte „durchdenkt“. Das hebt die Qualität bei schweren Aufgaben, kostet aber mehr Tokens und Zeit – oft über einen Aufwand-Regler steuerbar.
Mehr im Wissen →Verlässlichkeits-Stufe einer Quelle in der KI-Depesche: A = Primärquelle (z. B. offizielle Doku), B = solide Sekundärquelle, C = subjektiv/Einzelstimme. Steuert, wie stark eine Aussage gewichtet wird.
Mehr im Wissen →Die kleinste Verarbeitungseinheit eines Sprachmodells – ein Wortstück, kein ganzes Wort. Faustregel: rund 1.000 Tokens entsprechen grob 750 deutschen Wörtern. Preise und Kontextlängen werden in Tokens gerechnet.
Mehr im Wissen →Fähigkeit eines Modells, strukturiert externe Werkzeuge oder Funktionen aufzurufen (Suche, Code ausführen, APIs) und deren Ergebnisse weiterzuverwenden. Die Grundlage für Agenten.
Mehr im Wissen →Der Zeitpunkt, bis zu dem die Trainingsdaten eines Modells reichen („knowledge cutoff“). Über spätere Ereignisse weiß das Modell von sich aus nichts – es sei denn, sie werden ihm in der Anfrage mitgegeben.
Mehr im Wissen →Benchmark für die Verlässlichkeit beim Werkzeug-Einsatz: dieselbe Aufgabe wird viele Male wiederholt, gemessen wird, wie konstant das Modell die Tools korrekt bedient (0–100 %).
Mehr im Wissen →