← Wissen

KI-Grundlagen

Wie KI-Sprachmodelle funktionieren

Bevor es um einzelne Modelle oder Werkzeuge geht, lohnt sich ein Blick auf das gemeinsame Fundament. Ein modernes KI-Sprachmodell ist kein Nachschlagewerk und kein Denkapparat im menschlichen Sinn – es ist ein statistischer Vorhersage-Automat. Wer das verinnerlicht, versteht sowohl die verblüffenden Stärken als auch die typischen Fehler.

  • 3 Min. Lesezeit
  • 6 Abschnitte
  • 3 Quellen

Was ist ein Sprachmodell?

Ein großes Sprachmodell (Large Language Model, LLM) ist ein neuronales Netz, das auf riesigen Textmengen trainiert wurde, um das jeweils wahrscheinlichste nächste Textstück vorherzusagen. Aus dieser scheinbar simplen Aufgabe – „Wie geht der Text weiter?“ – entsteht in der Praxis die Fähigkeit, zu übersetzen, zusammenzufassen, zu programmieren oder Fragen zu beantworten.

Wichtig ist die Konsequenz: Das Modell „weiß“ nichts im menschlichen Sinn und schlägt nichts in einer Datenbank nach. Es erzeugt Sprache, die zu seinem Training passt. Das erklärt, warum dieselbe Frage je nach Formulierung unterschiedlich gut beantwortet wird.

Merksatz Ein LLM versteht nicht – es sagt das wahrscheinlichste nächste Token voraus. Verblüffend nützlich, aber kein Wissen im menschlichen Sinn.

Tokens – die Bausteine

Modelle verarbeiten Text nicht Buchstabe für Buchstabe, sondern in Tokens: kleinen Einheiten, die oft Wortteilen entsprechen. Als grobe Faustregel gilt im Englischen etwa ein Token pro vier Zeichen; Deutsch braucht wegen langer Komposita und Subword-Splitting tendenziell mehr Tokens pro Wort.

Wie ein Text in Tokens zerfällt, hängt vom Tokenizer des jeweiligen Modells ab und ist nicht über Generationen hinweg vergleichbar. Anthropic etwa weist für den seit Claude Opus 4.7 eingeführten Tokenizer aus, dass derselbe Text rund 30 % mehr Tokens erzeugt als bei älteren Modellen – relevant, weil Kosten und Kontextverbrauch in Tokens gerechnet werden.

Faustregel (EN)
≈ 4 Zeichen / Token
Deutsch
tendenziell mehr Tokens pro Wort

Das Kontextfenster

Das Kontextfenster ist die maximale Menge an Tokens, die ein Modell pro Anfrage gleichzeitig verarbeiten kann – Eingabe und erzeugte Ausgabe zusammen. Ist es voll, „vergisst“ das Modell den Anfang oder die Anfrage wird abgewiesen.

Die Größen variieren stark: Aktuelle Spitzenmodelle reichen bis zu rund einer Million Tokens, kompaktere Modelle liegen bei 200.000. Ein großes Fenster ist nützlich für lange Dokumente, ersetzt aber kein gezieltes Bereitstellen der relevanten Information.

Kontextfenster je Modell vergleichen →

Transformer & Self-Attention

Praktisch alle modernen LLMs beruhen auf der Transformer-Architektur, vorgestellt 2017 im Paper „Attention Is All You Need“. Ihr Kern ist die Self-Attention: Jedes Token kann beim Verarbeiten gewichten, welche anderen Tokens im Text für seine Bedeutung wichtig sind.

Dieser Mechanismus löste ältere, rein sequenzielle Ansätze ab, weil er sich gut parallelisieren lässt und längere Zusammenhänge erfasst. Er ist der Grund, warum sich das Training auf riesige Datenmengen überhaupt skalieren ließ.

Parameter & Größe

Parameter sind die im Training gelernten Gewichte des Netzes; ihre Zahl ist ein grober Kapazitätsindikator. Mehr Parameter bedeuten aber nicht automatisch ein besseres Modell – Datenqualität, Trainingsverfahren und Nachtraining wiegen oft schwerer.

Deshalb schlagen kleinere, sorgfältig trainierte Modelle regelmäßig größere. Die reine Parameterzahl taugt nicht als Qualitäts-Ranking.

Merksatz Mehr Parameter ≠ automatisch besser. Methode und Datenqualität entscheiden mit.

Training vs. Inferenz

Ein Modell durchläuft zwei grundverschiedene Phasen. Im Training lernt es aus riesigen Datenmengen seine Gewichte – ein einmaliger, extrem rechenintensiver Vorgang, der Wochen dauern kann. Inferenz ist die anschließende Nutzung: Bei jeder Anfrage rechnet das fertige Modell eine Antwort aus, ohne dass sich seine Gewichte dabei ändern.

Diese Trennung erklärt zwei Alltagsphänomene: Das Modell lernt nicht aus dem laufenden Gespräch dazu – es bleibt zwischen den Anfragen unverändert –, und die fortlaufenden Kosten entstehen nicht beim einmaligen Training, sondern bei der millionenfach wiederholten Inferenz.

Merksatz Training lernt die Gewichte – einmal. Inferenz nutzt sie – millionenfach. Im Chat lernt das Modell nicht dazu.

Was Inferenz an Compute und Energie kostet →