Nachschlagen

Glossar

KI ist voller Fachjargon. Hier stehen die wichtigsten Begriffe rund um Modelle, Benchmarks und Betrieb – kurz und verständlich erklärt. Dieselben Erklärungen erscheinen überall auf der Seite als Tooltip an den markierten Begriffen.

AA-Agentic: Agentic-Teilindex von Artificial Analysis (unabhängig, 0–100): misst, wie gut ein Modell mehrstufige, werkzeugnutzende Aufgaben eigenständig löst.
Mehr im Wissen →
AA-Coding: Coding-Teilindex von Artificial Analysis (unabhängig, 0–100): bündelt mehrere Programmier-Benchmarks zu einem Wert für die Code-Fähigkeit eines Modells.
Mehr im Wissen →
AA-Intelligenz: Zusammengesetzter Intelligenz-Index von Artificial Analysis (unabhängig, 0–100): bündelt mehrere Reasoning-, Wissens- und Mathe-Benchmarks zu einer Zahl. Je höher, desto stärker das allgemeine Reasoning.
Mehr im Wissen →
Adversarial Review: Code-Review-Muster, bei dem das Modell den Code grundsätzlich als kaputt annimmt und ihn gezielt gegen typische Produktions-Fehlerklassen (Auth/Mandanten-Isolation, Datenverlust, Idempotenz, Race-Conditions u. a.) angreift – statt ihn wohlwollend zu lesen. Liefert meist einen strukturierten Befund mit Schweregrad, Konfidenz und Zeile.
Mehr im Wissen →
Adversarial Verification: Workflow-Muster, bei dem ein zweiter Agent die Arbeit des ersten gezielt gegenprüft – also aktiv nach Fehlern sucht, statt nur zuzustimmen. Dämpft, dass ein Agent seine eigenen Ergebnisse bevorzugt.
Mehr im Wissen →
Agent Skill: Wiederverwendbares Können als Ordner mit einer SKILL.md (Name, Beschreibung, Anleitung, optional Skripte). Die vollen Anweisungen lädt der Agent erst, wenn eine Aufgabe zur Beschreibung passt (Progressive Disclosure) – viele Skills bei wenig Kontextkosten.
Mehr im Wissen →
Agent-Team: Mehrere koordinierte Claude-Code-Sitzungen mit je eigenem Kontextfenster, die sich eine gemeinsame Aufgabenliste teilen und direkt miteinander kommunizieren. Anders als isolierte Sub-Agenten reden sie miteinander. In Claude Code experimentell und standardmäßig deaktiviert (per Flag in der settings.json freizuschalten).
Mehr im Wissen →
Agentische Suche: Ein Agent navigiert eine Wissens- oder Codebasis wie ein Mensch – per Stichwortsuche (grep), Datei-Glob und gezieltem Lesen – statt über einen vorab gebauten Vektor-Index. Vorteil: kein Index zu pflegen, keine veralteten Treffer; setzt aber eine gute Struktur voraus, damit der Agent weiß, wo er suchen soll.
Mehr im Wissen →
AGENTS.md: Markdown-Datei im Projekt, die Coding-Agenten zu Beginn jeder Sitzung lesen – Konventionen, Architektur, Ge- und Verbote („README für Maschinen“). AGENTS.md ist der offene, herstellerübergreifende Standard; CLAUDE.md ist Anthropics Variante.
Mehr im Wissen →
Attention Budget: Bild für die begrenzte Aufmerksamkeit eines Transformers: Sie verteilt sich über alle Token-Paare (n² Beziehungen bei n Tokens), jeder zusätzliche Token zehrt vom Budget. Erklärt, warum ein volleres Fenster die Treffsicherheit drückt (Context Rot) – mehr Kontext heißt nicht mehr Können.
Mehr im Wissen →
Auto-Compaction: Automatische Compaction nahe der Fenstergrenze: Der Agent verdichtet die Historie selbsttätig, statt sie auflaufen zu lassen, und behält dabei gezielt wichtige Entscheidungen. In Claude Code Standardverhalten; manuell anstoßbar mit /compact.
Mehr im Wissen →
CLI (Command-Line Interface): Werkzeug, das über die Kommandozeile (Shell) bedient wird. Für Agenten mit Shell-Zugriff oft eine schlanke Alternative zur MCP-Anbindung: Ein einzelnes CLI-Tool belegt weniger Kontext als ein dauerhaft geladener MCP-Server – es ruft seine Definition erst beim Aufruf ab.
Mehr im Wissen →
Compaction: Nähert sich ein Gespräch der Fenstergrenze, fasst Compaction die bisherige Historie zu einer Zusammenfassung zusammen und führt damit fort – bewusst so gebaut, dass wichtige Entscheidungen erhalten bleiben. Anders als /clear (das alles verwirft) bewahrt es den roten Faden. Auslösbar über /compact.
Mehr im Wissen →
Context Editing: Räumt nahe dem Kontextlimit automatisch veraltete Tool-Aufrufe und -Ergebnisse aus dem Fenster, ohne den Gesprächsfaden zu kappen. In einer Anthropic-Eigenmessung über eine 100-Schritte-Websuche senkte das den Token-Verbrauch deutlich – eine Form laufender Kontext-Hygiene.
Mehr im Wissen →
Context Rot: Beobachtung, dass die Treffsicherheit eines Modells beim Wiederfinden von Information sinkt, je mehr Tokens im Kontextfenster stehen – mehr Kontext heißt nicht automatisch mehr Können.
Mehr im Wissen →
Contextual Retrieval: RAG-Verbesserung von Anthropic: Jedem Textabschnitt wird vor dem Einbetten ein kurzer, modellgenerierter Kontextsatz vorangestellt und mit Stichwortsuche (BM25) kombiniert. Senkt fehlgeschlagene Retrievals um bis zu 49 %, mit Reranking um bis zu 67 % – besseres RAG statt Wissensgraph.
Mehr im Wissen →
Cross-Modell-Review: Code-Review, bei dem ein anderes Modell (oder zumindest ein frischer Kontext) das Ergebnis prüft, statt das produzierende Modell sich selbst – um den Self-Review-/Self-Preference-Bias zu umgehen. Ein zweites, unabhängiges Augenpaar findet nachweislich mehr Fehler; ersetzt aber nicht die menschliche Aufsicht.
Mehr im Wissen →
Dynamic Workflow: Orchestrierungs-Code (ein JavaScript-Harness), den Claude zur Laufzeit selbst für genau eine Aufgabe schreibt – statt eines fest hinterlegten Skripts. Spawnt und koordiniert Sub-Agenten, wählt je Stufe Modell und Isolation. Auslösbar per Bitte oder Triggerwort „ultracode“.
Mehr im Wissen →
Elo (LMArena): Human-Präferenz-Wertung aus der LMArena: Menschen vergleichen blind zwei Modellantworten, daraus entsteht – wie beim Schach – eine Elo-Zahl. Höher = häufiger bevorzugt. Misst Präferenz, nicht Korrektheit.
Mehr im Wissen →
Emergenz (Multi-Agenten): Die Idee, dass aus dem freien Zusammenspiel vieler sich selbst organisierender Agenten von allein kluges Verhalten entsteht. In der Praxis eine häufige Fehlerquelle: Forschung zeigt, dass zentrale Orchestrierung mit klarer Hierarchie verlässlicher ist – Emergenz gilt als faszinierend, aber (noch) nicht produktionsreif.
Mehr im Wissen →
Fan-out-and-synthesize: Workflow-Muster: eine Frage auffächern, mehrere Sub-Agenten gleichzeitig Teilaspekte bearbeiten lassen (fan-out) und ihre Ergebnisse anschließend zu einer Antwort zusammenführen (synthesize). Das Arbeitspferd paralleler Recherche.
Mehr im Wissen →
Git-Worktree: Ein zweites (oder n-tes) Arbeitsverzeichnis desselben Git-Repos mit eigenem Branch, aber geteilter Versionsgeschichte. Lässt parallele Agenten/Sitzungen in getrennten Spuren arbeiten, ohne sich gegenseitig die Dateien zu überschreiben.
Mehr im Wissen →
Grouped-Query-Attention: Speicher- und rechensparende Attention-Variante: mehrere Query-Köpfe teilen sich gemeinsame Key/Value-Köpfe. Schneller und speicherärmer als klassische Multi-Head-Attention, dabei genauer als die extreme Multi-Query-Variante.
Mehr im Wissen →
Harness: Die Gerüst- bzw. Steuerungsschicht um ein Modell herum: der Code, der Werkzeuge anbindet, den Loop führt, Sub-Agenten spawnt und Ergebnisse einsammelt. Faustregel: oft bringt ein engerer Harness mehr als ein klügeres Modell.
Mehr im Wissen →
Hugging Face: Die zentrale Plattform, auf der offene KI-Modelle (ihre Gewichte) samt Spezifikation veröffentlicht und heruntergeladen werden – die „GitHub-Drehscheibe“ der open-weight-Szene.
Mehr im Wissen →
Inferenz: Der laufende Betrieb eines fertig trainierten Modells – das Erzeugen von Antworten auf Anfragen. Anders als das einmalige Training fällt Inferenz bei jeder Nutzung an.
Mehr im Wissen →
Kontext-Engineering: Die Disziplin, gezielt zu kuratieren, welche Tokens während der Inferenz im Kontextfenster stehen – statt möglichst viel hineinzukippen. Kontext ist eine endliche Ressource; Ziel ist „informativ, aber knapp“. Gilt als Fortsetzung des Prompt-Engineerings.
Mehr im Wissen →
Kontextfenster: Die maximale Textmenge (in Tokens), die ein Modell pro Anfrage gleichzeitig „im Blick“ hat – Eingabe plus bisheriger Verlauf. Ist es voll, fällt Älteres aus dem Kontext.
Mehr im Wissen →
LLM-as-judge: Ein Sprachmodell als automatischer Bewerter, das Ausgaben (Code, Antworten) beurteilt oder vergleicht – etwa für Benchmarks oder Code-Review. Schnell und skalierbar, aber anfällig für systematische Verzerrungen wie den Self-Preference-Bias; deshalb nie das arbeitende Modell sich selbst benoten lassen.
Mehr im Wissen →
MCP (Model Context Protocol): Offener Standard, über den ein Modell einheitlich externe Werkzeuge und Datenquellen anbindet. Macht Tool-Anbindungen austauschbar statt anbieterspezifisch.
Mehr im Wissen →
MoE (Mixture of Experts): Architektur, bei der je Anfrage nur ein Teil des Modells („Experten“) aktiv wird. So hat das Modell sehr viele Gesamt-Parameter, rechnet aber nur mit wenigen aktiven – das spart Rechenzeit.
Mehr im Wissen →
MTP (Multi-Token-Prediction): Das Modell sagt pro Schritt mehrere Tokens auf einmal voraus statt nur eines – ein Beschleuniger, der oft mit Speculative Decoding zusammenspielt.
Mehr im Wissen →
multimodal: Ein Modell ist multimodal, wenn es mehr als nur Text verarbeitet – etwa Bilder, Audio oder Video als Eingabe versteht (manche erzeugen sie auch als Ausgabe).
Mehr im Wissen →
open-weight: Modell, dessen trainierte Gewichte öffentlich herunterladbar sind, sodass man es selbst (lokal oder auf eigener Hardware) betreiben kann. Nicht zwingend vollständig quelloffen – die Lizenz bestimmt die erlaubte Nutzung.
Mehr im Wissen →
Orchestrator-Worker: Orchestrierungs-Muster, bei dem ein führender Agent (Orchestrator) eine Aufgabe zerlegt und Teilaufgaben an mehrere Helfer-Agenten (Worker/Sub-Agenten) verteilt, deren Ergebnisse er anschließend zusammenführt. Grundform der hierarchischen Multi-Agenten-Koordination.
Mehr im Wissen →
Parameter: Die im Training gelernten „Stellschrauben“ eines Modells (gezählt in Milliarden). Mehr Parameter heißt grob mehr Kapazität, aber auch mehr Rechen- und Speicherbedarf – und sagt allein wenig über die Qualität.
Mehr im Wissen →
Pareto-Dominanz: Ein Modell „dominiert“ ein anderes, wenn es in allen verglichenen Maßen mindestens gleich gut ist und dabei nicht teurer – dann gibt es keinen Grund, das unterlegene zu wählen. Grundlage der „stärker bei gleichem oder geringerem Preis“-Einordnung.
Mehr im Wissen →
Preis-Leistung: Hier: AA-Intelligenz geteilt durch den (3:1 gewichteten) Token-Preis – Indexpunkte je Dollar pro Mio. Tokens. Höher = mehr Leistung fürs Geld. Entspricht der „Intelligence vs. Price“-Sicht von Artificial Analysis.
Mehr im Wissen →
Prompt-Injection: Angriff, bei dem fremde Anweisungen über Inhalte eingeschleust werden, die ein Modell nur verarbeiten soll (Website, Dokument, Werkzeug-Ergebnis) – der Agent führt sie aus, als kämen sie vom Nutzer. Anders als beim Jailbreak greift hier ein Dritter an, nicht die nutzende Person.
Mehr im Wissen →
proprietär: Modell, das nur über die API oder das Produkt des Anbieters nutzbar ist; die Gewichte werden nicht veröffentlicht. Gegenstück zu open-weight.
Mehr im Wissen →
Quantisierung: Verfahren, das die Gewichte eines Modells mit weniger Bits speichert (z. B. 4 statt 16). Das senkt Speicher- und Hardwarebedarf deutlich, kostet aber etwas Genauigkeit – wichtig fürs lokale Betreiben.
Mehr im Wissen →
RAG: Retrieval-Augmented Generation: dem Modell werden zur Anfrage passende Textstellen aus einer eigenen Wissensquelle beigelegt, damit es daraus antwortet statt nur aus dem Training. Reduziert Halluzinationen und hält Wissen aktuell.
Mehr im Wissen →
Self-Hosting: Ein (meist open-weight) Modell auf eigener Hardware oder in der eigenen Cloud betreiben, statt die API eines Anbieters zu nutzen. Bringt Datenhoheit und Kostenkontrolle, erfordert aber eigene Infrastruktur.
Mehr im Wissen →
Self-Preference-Bias: Messbarer Effekt, dass ein Sprachmodell als Bewerter (LLM-as-judge) eigene und modell-familieneigene Ausgaben systematisch höher einstuft. Mechanismus: geringere Perplexität bzw. höhere Vertrautheit der Selbst-Outputs, nicht objektiv bessere Qualität. Belegt u. a. für GPT-4 (arXiv:2410.21819).
Mehr im Wissen →
Self-Review-Bias: Die Neigung eines Sprachmodells, den eben selbst erzeugten Code (oder Text) zu mild zu bewerten und durchzuwinken. Ursache ist Vertrautheit, nicht echte Qualität – derselbe Kontext, der die Lösung erzeugt hat, beurteilt sie auch. Gegenmittel: ein frischer Kontext bzw. ein zweites Modell als Gutachter.
Mehr im Wissen →
Sicherheitsstufe: Anbieter-Einstufung des Risikoniveaus eines Modells (z. B. Anthropics ASL-Stufen oder „Cyber: High“). Höhere Stufen lösen strengere Schutzmaßnahmen aus. Stammt aus der System-Card – Eigenangabe des Anbieters.
Mehr im Wissen →
Sparse Attention: Aufmerksamkeits-Mechanismus, der nicht jeden Token mit jedem vergleicht, sondern nur eine ausgewählte Teilmenge. Das senkt Rechen- und Speicheraufwand bei sehr langen Kontexten erheblich.
Mehr im Wissen →
Speculative Decoding: Beschleunigungstechnik: ein kleines Hilfsmodell rät mehrere Tokens voraus, das große Modell prüft sie in einem Rutsch. Akzeptierte Vorhersagen sparen Rechenschritte – schnellere Ausgabe ohne Qualitätsverlust.
Mehr im Wissen →
Structured Output: Fähigkeit eines Modells, die Antwort in einem festen, maschinenlesbaren Format (z. B. JSON nach Schema) zu liefern – wichtig, wenn Programme die Ausgabe weiterverarbeiten.
Mehr im Wissen →
Subagent: Spezialisierter Hilfs-Agent mit eigenem, sauberem Kontextfenster: Ein Leit-Agent koordiniert den Plan, Subagenten erledigen Teilaufgaben und liefern nur eine verdichtete Zusammenfassung (oft 1.000–2.000 Tokens) zurück – Kontext-Isolation als Arbeitsteilung.
Mehr im Wissen →
SWE-bench: Coding-Benchmark, der Modelle echte GitHub-Issues in realen Repositories lösen lässt; gewertet wird, ob der erzeugte Patch die Tests besteht. Verbreitet, aber zunehmend durch Trainings-Kontamination belastet.
Mehr im Wissen →
System-Card: Das offizielle Begleitdokument eines Anbieters zu einem Modell (auch „Model Card“): Fähigkeiten, Grenzen, Sicherheitsbewertung. Primärquelle – die Fähigkeitsangaben darin sind aber Eigenangaben, nicht unabhängig gemessen.
Mehr im Wissen →
Terminal-Bench: Ausführungsbasierter Benchmark (0–100 %): das Modell löst echte Shell-/Terminal-Aufgaben in einer Sandbox, gewertet wird, ob das Ergebnis wirklich funktioniert. Dadurch kontaminationsärmer als reine Wissensquizze.
Mehr im Wissen →
Thinking / Reasoning: Modus, in dem ein Modell vor der Antwort sichtbare Zwischenschritte „durchdenkt“. Das hebt die Qualität bei schweren Aufgaben, kostet aber mehr Tokens und Zeit – oft über einen Aufwand-Regler steuerbar.
Mehr im Wissen →
Tier (A/B/C): Verlässlichkeits-Stufe einer Quelle in der KI-Depesche: A = Primärquelle (z. B. offizielle Doku), B = solide Sekundärquelle, C = subjektiv/Einzelstimme. Steuert, wie stark eine Aussage gewichtet wird.
Mehr im Wissen →
Token: Die kleinste Verarbeitungseinheit eines Sprachmodells – ein Wortstück, kein ganzes Wort. Faustregel: rund 1.000 Tokens entsprechen grob 750 deutschen Wörtern. Preise und Kontextlängen werden in Tokens gerechnet.
Mehr im Wissen →
Tool-Calling: Fähigkeit eines Modells, strukturiert externe Werkzeuge oder Funktionen aufzurufen (Suche, Code ausführen, APIs) und deren Ergebnisse weiterzuverwenden. Die Grundlage für Agenten.
Mehr im Wissen →
ultracode: Triggerwort in Claude Code, das einen Dynamic Workflow anstößt: Claude baut sich daraufhin zur Laufzeit einen aufgabenspezifischen Harness, der Sub-Agenten spawnt und koordiniert. Alternativ genügt eine entsprechende Bitte.
Mehr im Wissen →
Verifikations-Loop: Schleife, in der ein Agent seine Arbeit gegen einen ausführbaren Prüfstein laufen lässt – Tests, Build, Lint, Screenshot-Abgleich – und an den Rückmeldungen so lange iteriert, bis der Check grün ist. Ersetzt „sieht fertig aus“ durch einen deterministischen Beweis und schließt den „trust-then-verify gap“.
Mehr im Wissen →
Wissensgraph: Wissen als Graph aus Entitäten (Knoten) und Beziehungen (Kanten). Fürs Retrieval (GraphRAG) erlaubt das „globale“ Schließen über einen Korpus und verbindet verstreute Fakten, die reine Vektorsuche übersieht.
Mehr im Wissen →
Wissensstichtag: Der Zeitpunkt, bis zu dem die Trainingsdaten eines Modells reichen („knowledge cutoff“). Über spätere Ereignisse weiß das Modell von sich aus nichts – es sei denn, sie werden ihm in der Anfrage mitgegeben.
Mehr im Wissen →
τ²-bench: Benchmark für die Verlässlichkeit beim Werkzeug-Einsatz: dieselbe Aufgabe wird viele Male wiederholt, gemessen wird, wie konstant das Modell die Tools korrekt bedient (0–100 %).
Mehr im Wissen →