KI-Grundlagen

Wie KI-Sprachmodelle funktionieren

Bevor es um einzelne Modelle oder Werkzeuge geht, lohnt sich ein Blick auf das gemeinsame Fundament. Ein modernes KI-Sprachmodell ist kein Nachschlagewerk und kein Denkapparat im menschlichen Sinn – es ist ein statistischer Vorhersage-Automat. Wer das verinnerlicht, versteht sowohl die verblüffenden Stärken als auch die typischen Fehler.

7 Min. Lesezeit
9 Abschnitte
9 Quellen
Stand: 16. Juni 2026

Diagramm „Self-Attention“: eine Reihe von Token-Kacheln (Der, Hund, bellt, weil, er, Hunger); vom hervorgehobenen Token „er“ laufen unterschiedlich starke Verbindungslinien zu den übrigen — die dickste (starkes Gewicht) zu „Hund“. So gewichtet das Modell, wie stark jedes Token für ein anderes zählt.

Was ist ein Sprachmodell?

Ein großes Sprachmodell (Large Language Model, LLM) ist ein neuronales Netz, das auf riesigen Textmengen trainiert wurde, um das jeweils wahrscheinlichste nächste Textstück vorherzusagen. Aus dieser scheinbar simplen Aufgabe – „Wie geht der Text weiter?“ – entsteht in der Praxis die Fähigkeit, zu übersetzen, zusammenzufassen, zu programmieren oder Fragen zu beantworten.

Wichtig ist die Konsequenz: Das Modell „weiß“ nichts im menschlichen Sinn und schlägt nichts in einer Datenbank nach. Es erzeugt Sprache, die zu seinem Training passt. Das erklärt, warum dieselbe Frage je nach Formulierung unterschiedlich gut beantwortet wird.

MerksatzEin LLM versteht nicht – es sagt das wahrscheinlichste nächste Token voraus. Verblüffend nützlich, aber kein Wissen im menschlichen Sinn.

Tokens – die Bausteine

Modelle verarbeiten Text nicht Buchstabe für Buchstabe, sondern in Tokens: kleinen Einheiten, die oft Wortteilen entsprechen. Als grobe Faustregel gilt im Englischen etwa ein Token pro vier Zeichen; Deutsch braucht wegen langer Komposita und Subword-Splitting tendenziell mehr Tokens pro Wort.

Wie viel mehr, hängt vom Tokenizer ab – und genau deshalb sollte man die Tokenizer-Generation immer mitnennen. Eine Untersuchung von Petrov et al. (NeurIPS 2023) maß auf einem mehrsprachigen Standard-Datensatz (FLORES-200) mit dem älteren cl100k-Tokenizer für Deutsch rund das 1,58-Fache der englischen Token-Zahl. Mit neueren Tokenizer-Generationen schrumpft der Aufschlag wieder – Anthropic etwa nennt seit Opus 4.7 rund 30 % mehr Tokens für denselben Text. Pauschal gilt: Deutscher Text kostet grob 30–50 % mehr Tokens als englischer, je nach Tokenizer-Generation.

Wie ein Text in Tokens zerfällt, ist also nicht über Generationen hinweg vergleichbar. Anthropic etwa weist für den seit Claude Opus 4.7 eingeführten Tokenizer aus, dass derselbe Text rund 30 % mehr Tokens erzeugt als bei älteren Modellen – relevant, weil Kosten und Kontextverbrauch in Tokens gerechnet werden.

Faustregel (EN): ≈ 4 Zeichen / Token
Deutsch: tendenziell mehr Tokens pro Wort
Deutsch ↔ Englisch: ~30–50 % mehr Tokens (cl100k ~+58 %; neuere Tokenizer geringer)

Das Kontextfenster

Das Kontextfenster ist die maximale Menge an Tokens, die ein Modell pro Anfrage gleichzeitig verarbeiten kann – Eingabe und erzeugte Ausgabe zusammen. Ist es voll, „vergisst“ das Modell den Anfang oder die Anfrage wird abgewiesen. Auch Eingaben zählen hinein: Bild, Audio und Video werden ebenfalls in Tokens umgesetzt (Gemma 4 etwa belegt je Bild konfigurierbare 70–1120 visuelle Tokens) und belasten dasselbe Fenster.

Die Größen variieren stark: Aktuelle Spitzenmodelle reichen bis zu rund einer Million Tokens, kompaktere Modelle liegen bei 200.000. Ein großes Fenster ist nützlich für lange Dokumente, ist aber ein Kapazitäts-Maximum, keine Qualitätsgarantie: Der effektiv nutzbare Teil liegt meist darunter, und die Trefferquote fällt – wie „Lost in the Middle“ und „RULER“ zeigen – zur Mitte langer Kontexte hin ab. Wichtige Information gehört deshalb an Anfang und Ende, nicht in die Mitte eines riesigen Stapels.

Kontextfenster je Modell vergleichen →Warum ein großes Kontextfenster kein besseres Modell macht →Wie multimodale Eingaben verarbeitet werden →

Transformer & Self-Attention

Praktisch alle modernen LLMs beruhen auf der Transformer-Architektur, vorgestellt 2017 im Paper „Attention Is All You Need“. Ihr Kern ist die Self-Attention: Jedes Token kann beim Verarbeiten gewichten, welche anderen Tokens im Text für seine Bedeutung wichtig sind.

Dieser Mechanismus löste ältere, rein sequenzielle Ansätze ab, weil er sich gut parallelisieren lässt und längere Zusammenhänge erfasst. Er ist der Grund, warum sich das Training auf riesige Datenmengen überhaupt skalieren ließ.

Vorhersage als Kompression

Warum funktioniert das Vorhersagen des nächsten Tokens überhaupt so gut? Eine elegante Sicht verbindet es mit der Informationstheorie. Der Mathematik-Kanal 3Blue1Brown leitet über die Shannon-Entropie her, dass gute Vorhersage und verlustfreie Kompression zwei Seiten derselben Medaille sind: Je besser ein Modell vorhersagt, was als Nächstes kommt, desto weniger zusätzliche Information braucht es, um den tatsächlichen Text festzuhalten – also desto stärker komprimiert es ihn. Das theoretische Fundament dafür legte Claude Shannon bereits 1948/1950.

Aus dieser Brücke wird gern die griffige These „Kompression ist Intelligenz“ gemacht. 3Blue1Brown markiert sie allerdings ausdrücklich selbst als nicht-rigoros – die saubere Mathematik betrifft den Zusammenhang von Vorhersage und Kompression, nicht die Gleichsetzung mit Intelligenz. Als Intuition dafür, warum sich aus reiner Vorhersage so viel Nützliches ergibt, taugt sie trotzdem.

MerksatzBesser vorhersagen heißt stärker komprimieren – das ist die saubere Idee. Den Sprung zu „Kompression ist Intelligenz“ kennzeichnet selbst die Quelle als nicht streng bewiesen.

Parameter & Größe

Parameter sind die im Training gelernten Gewichte des Netzes; ihre Zahl ist ein grober Kapazitätsindikator. Zur Einordnung: GPT-3 brachte es 2020 auf 175 Milliarden Parameter – eine Zahl, die damals als gewaltig galt. Mehr Parameter bedeuten aber nicht automatisch ein besseres Modell – Datenqualität, Trainingsverfahren und Nachtraining wiegen oft schwerer.

Der didaktische Statistik-Kanal StatQuest (Josh Starmer) formuliert es zugespitzt: Ein Modell sei im Kern eine einzige riesige Gleichung, und eine Parameterzahl-Ankündigung sage nur, wie groß diese Gleichung ist – nichts über ihre Qualität. Deshalb schlagen kleinere, sorgfältig trainierte Modelle regelmäßig größere. Die reine Parameterzahl taugt nicht als Qualitäts-Ranking – und bei modernen Modellen rechnet ohnehin nicht mehr die ganze Gleichung mit (dazu der nächste Abschnitt).

Historischer Anker: GPT-3: 175 Mrd. Parameter (2020)

MerksatzMehr Parameter ≠ automatisch besser. Methode und Datenqualität entscheiden mit.

Aktive vs. totale Parameter: Mixture-of-Experts

Die nackte Parameterzahl ist heute als Vergleichsmaß noch weniger wert, als sie ohnehin schon war – weil viele führende Modelle (vor allem im -Lager) gar nicht mehr alle Gewichte pro Token nutzen. Dieser Ansatz heißt Sparse Mixture-of-Experts (MoE): Das Netz besteht aus vielen spezialisierten „Experten“, von denen pro Token nur ein kleiner Teil aktiviert wird. Man unterscheidet seither zwei Zahlen – die totalen Parameter (wie groß das Modell insgesamt ist) und die aktiven Parameter (wie viele davon eine einzelne Vorhersage tatsächlich berechnet).

Das offen dokumentierte DeepSeek-V4 zeigt die Spreizung deutlich: 1,6 Billionen Parameter total, aber nur 49 Milliarden aktiv pro Token. Der Effekt ist eine Entkopplung, die vorher nicht selbstverständlich war – die Modellgröße lässt sich vergrößern, ohne dass die Rechenkosten pro Token im gleichen Maß mitwachsen. Eine „1,6-Billionen“-Schlagzeile sagt damit über die tatsächliche Rechenlast einer Antwort fast nichts mehr aus.

Der didaktische Statistik-Kanal StatQuest (Josh Starmer) bringt den Kern auf den Punkt: Im Innersten sei ein KI-Modell eine einzige riesige Gleichung – eine Parameterzahl-Ankündigung verrate nur, wie groß diese Gleichung ist, nichts über ihre Qualität. Bei MoE kommt hinzu, dass die volle Größe der Gleichung und die pro Token wirklich gerechnete Größe auseinanderfallen. (Wichtig: Frontier-Modelle wie Claude Opus, GPT oder Gemini legen ihre Architektur nicht offen – MoE ist also kein belegbarer Universal-Standard, sondern ein bei offenen Modellen gut dokumentiertes Muster.)

Architektur: Sparse Mixture-of-Experts – pro Token nur ein Teil der Gewichte aktiv
Beispiel DeepSeek-V4: 1,6 Bio. Parameter total / 49 Mrd. aktiv pro Token
Folge: Modellgröße entkoppelt von Rechenkosten pro Token

MerksatzBei modernen Modellen zählen zwei Zahlen: total (wie groß das Modell ist) und aktiv (was eine Antwort wirklich rechnet). Die nackte Gesamtzahl sagt über Kosten und Qualität noch weniger aus als früher.

Modelle und ihre Architektur im Vergleich →

Effizienz statt Größe: Wie offene Modelle aufholen

Dass kleinere und offene Modelle an die Spitze heranrücken, liegt heute weniger an schierer Größe als an Effizienz – an besseren Verfahren, dieselbe Fähigkeit mit weniger Rechenaufwand zu erreichen. DeepSeek-V4 ist dafür ein gut dokumentiertes Beispiel und kombiniert gleich mehrere solcher Hebel.

Der erste ist komprimierte Attention: Statt für jedes Token den vollen Zwischenspeicher (KV-Cache) vorzuhalten, schrumpft eine hybride, stark komprimierte Variante diesen Speicher im Ein-Millionen-Token-Kontext auf rund 2 % einer vergleichbaren Standard-Architektur – etwa 50× kleiner. Das macht lange Kontexte überhaupt erst bezahlbar. Hinzu kommen Hash-Routing in den ersten MoE-Schichten (welcher Experte ein Token bearbeitet, entscheidet eine feste Zuordnung statt einer gelernten), FP4-Quantization-Aware-Training (die Expert-Gewichte werden von vornherein für sehr niedrige Zahlpräzision trainiert) und der Muon-Optimizer anstelle des lange üblichen AdamW.

Der Muon-Optimizer wurde Ende 2024 von Keller Jordan vorgestellt und erstmals vom Moonshot-/Kimi-Team groß skaliert; deren Arbeit „Muon is Scalable for LLM Training“ berichtet rund die doppelte Trainings-Effizienz gegenüber AdamW. Solche Methoden-Sprünge sind der eigentliche Grund, warum der Abstand zwischen offenen und proprietären Spitzenmodellen über das vergangene Jahr deutlich geschrumpft ist – nicht zusätzliche Milliarden Parameter.

Komprimierte Attention: KV-Cache ~2 % einer BF16-GQA8-Baseline (1-Mio-Kontext) – ~50× kleiner
Routing: Hash-Routing in den ersten MoE-Schichten (feste statt gelernte Zuordnung)
Präzision & Optimizer: FP4-Quantization-Aware-Training · Muon statt AdamW (~2× Effizienz)

MerksatzDer Vorsprung entsteht heute über Effizienz, nicht über Größe: komprimierte Attention, sparsames Routing, niedrigere Zahlpräzision und bessere Optimizer holen mit weniger Compute mehr heraus.

Was Inferenz an Compute und Energie kostet →Offene und proprietäre Modelle im Vergleich →

Training vs. Inferenz

Ein Modell durchläuft zwei grundverschiedene Phasen. Im Training lernt es aus riesigen Datenmengen seine Gewichte – ein einmaliger, extrem rechenintensiver Vorgang, der Wochen dauern kann. Inferenz ist die anschließende Nutzung: Bei jeder Anfrage rechnet das fertige Modell eine Antwort aus, ohne dass sich seine Gewichte dabei ändern.

Das Training zerfällt selbst noch einmal: Auf das teure Pre-Training (das eigentliche Lernen aus den Daten) folgt das Post-Training bzw. Alignment, das dem Modell beibringt, hilfreich und sicher auf normale Prompts zu antworten. StatQuest (Josh Starmer) ordnet die Größenordnung ein: Das Training selbst sei teuer an Strom und Rechenzeit, das Alignment dagegen vergleichsweise billig und schnell – und entscheide trotzdem darüber, ob ein Modell sinnvoll antwortet. (Eine didaktische Größenordnung, kein exakter Kostenvergleich.)

Wie sich die Skalierung dieser Trainingsphasen verhält, ist Gegenstand laufender Debatten – und hier lohnt der Blick auf benannte Positionen statt auf neutrale Fakten. Im Interview mit Dwarkesh Patel vertritt Anthropic-CEO Dario Amodei die Position, dass auch das Reinforcement-Learning-Training (RL) dieselben log-linearen Skalierungskurven zeige wie das Pre-Training – über viele Aufgaben hinweg, nicht nur bei Mathematik; was zähle, seien Compute-Menge, Datenqualität, Trainingszeit und eine skalierbare Zielfunktion. Das ist eine zugespitzte Anbieter-Position eines CEOs mit klarem Eigeninteresse und kein gesicherter Befund – als solche aber ein nützliches Schlaglicht auf die Skalierungs-These.

Diese Trennung erklärt mehrere Alltagsphänomene: Das Modell lernt nicht aus dem laufenden Gespräch dazu – es bleibt zwischen den Anfragen unverändert –, und die fortlaufenden Kosten entstehen nicht beim einmaligen Training, sondern bei der millionenfach wiederholten Inferenz. Bei breit genutzten Modellen macht die Inferenz nach einer Branchen-Faustregel bis zu 90 % der Lebenszeit-Rechenkosten aus (Größenordnung, kein exakter Wert).

MerksatzTraining lernt die Gewichte – einmal. Inferenz nutzt sie – millionenfach. Im Chat lernt das Modell nicht dazu.

Was Inferenz an Compute und Energie kostet →Wie Modelle ausgerichtet (alignment) und sicher gemacht werden →

Aktuelle Depeschen

DiffusionGemma: Google testet Text per Diffusion statt Token für Token →