Verhalten

Was Sprachmodelle können – und wo sie scheitern

Wer LLMs produktiv nutzt, stößt schnell auf wiederkehrende Verhaltensmuster. Sie sind kein Bug, sondern folgen aus der Funktionsweise. Diese Seite ordnet die wichtigsten ein – damit du Ergebnisse richtig einschätzt, statt ihnen blind zu vertrauen.

5 Min. Lesezeit
7 Abschnitte
6 Quellen
Stand: 16. Juni 2026

Halluzinationen

Als Halluzination bezeichnet man plausibel klingende, aber falsche oder frei erfundene Inhalte – etwa erfundene Quellen, falsche Zahlen oder nicht existierende Funktionen. Sie sind strukturell bedingt: Das Modell erzeugt wahrscheinliche Sprache, nicht geprüfte Fakten, und „rät“ bei Unsicherheit, statt zu schweigen. Wichtig ist die Präzisierung der Forschung: Halluzination ist strukturell, aber nicht „mathematisch zwingend“. Modelle könnten sich bei Unsicherheit auch enthalten – also „weiß nicht“ sagen. Dass sie es selten tun, liegt am Anreiz: Training und Benchmarks belohnen das Raten gegenüber dem Eingestehen von Unwissen.

Vollständig abstellen lässt sich das nicht. Mindern kann man es durch das Bereitstellen von Quellen (RAG – Retrieval-Augmented Generation), durch Zitierzwang, durch die ausdrückliche Erlaubnis zu schweigen (Abstain) und durch konsequente Nachprüfung wichtiger Aussagen.

Ein verbreiteter Trugschluss ist, ein hoher Aggregat-Score bedeute auch zuverlässige Korrektheit. Der quellenbewusste Analyse-Kanal AI Explained zeigt das Gegenteil: Entscheidend ist nicht nur, wie viele Antworten stimmen, sondern wie sich ein Modell bei seinen falschen verhält. Nach den eigenen Messungen des Kanals halluziniert das in einer Aggregat-Rangliste führende Modell bei seinen Falsch-Antworten rund 50 % der Fälle (Gemini 3.1 Pro), während ein im Aggregat schwächeres Modell dort sauberer abschneidet (Sonnet 4.6 rund 38 %, GLM-5 rund 34 %). Diese Zahlen sind als befangen zu lesen – es sind Eigenmessungen des Kanals an teils frühem Zugang, kein neutraler, reproduzierter Benchmark. Die Lehre dahinter trägt trotzdem: Der Spitzenreiter einer Rangliste kann bei seinen Fehlern der Schlechteste sein.

Mindern statt abstellen: RAG · Zitierzwang · Abstain erlauben · Nachprüfen
Strukturell, aber: nicht „mathematisch zwingend“ – Modell könnte schweigen, wird aber fürs Raten belohnt

MerksatzEine selbstbewusst klingende Antwort ist kein Beleg. Wichtige Fakten immer gegenprüfen.

Temperatur & Sampling

Über Sampling-Parameter wie die Temperatur lässt sich steuern, wie „zufällig“ ein Modell formuliert: Niedrige Werte liefern fokussierte, wiederholbarere Antworten, höhere Werte mehr Varianz und Kreativität. Bei Temperatur 0 wählt das Modell theoretisch immer das wahrscheinlichste nächste Token (greedy decoding) – formal also deterministisch.

Dass exakt reproduzierbare Ausgaben dennoch nicht garantiert sind, hat einen konkreten technischen Grund. Wie Horace He (Thinking Machines) herausgearbeitet hat, fehlt den GPU-Kernels die Batch-Invarianz: Server bündeln eingehende Anfragen dynamisch zu wechselnd großen Batches, was die Reihenfolge der Rechenoperationen verschiebt – und weil Gleitkomma-Arithmetik nicht assoziativ ist, kann dieselbe Eingabe minimal abweichende Ergebnisse liefern. Das Routing in -Modellen ist allenfalls ein plausibler Zusatzfaktor, nicht die Hauptursache. Verlasse dich für kritische Workflows nicht auf exakte Reproduzierbarkeit allein über die Temperatur.

T = 0: greedy decoding – theoretisch deterministisch
T = 1: Verteilung unverändert – ausgewogen
T > 1: vielfältiger/kreativer, aber fehleranfälliger
Warum nicht garantiert: fehlende Batch-Invarianz der GPU-Kernels + Gleitkomma-Nicht-Assoziativität

MerksatzTemperatur 0 ist greedy, aber nicht garantiert reproduzierbar: dynamisches Batching und Gleitkomma-Arithmetik erzeugen Restvarianz.

Warum Benchmark-Zahlen schwanken können →

Reasoning- und Thinking-Modelle

Manche Modelle erzeugen vor der eigentlichen Antwort längere interne Denkschritte. Das verbessert Ergebnisse bei Logik, Mathematik und mehrstufigen Aufgaben spürbar, kostet aber mehr und Zeit.

Für einfache Aufgaben ist dieser Aufwand unnötig. Die Kunst liegt darin, den Modus zur Aufgabe zu wählen – nicht jede Frage braucht ausführliches Nachdenken.

Wissensstichtag (Knowledge Cutoff)

Das Trainingswissen eines Modells endet zu einem bestimmten Datum. Ereignisse danach kennt es nur, wenn ihm aktuelle Information zur Laufzeit mitgegeben wird – über Websuche, Tools oder .

Anbieter unterscheiden dabei teils zwischen einem „zuverlässigen“ Wissensstichtag und dem breiteren Trainingsdaten-Zeitraum. Für aktuelle Fakten gilt: ohne Werkzeuge kein verlässliches Tagesgeschehen.

Claude Sonnet 4.6: Mai 2025
Claude Haiku 4.5: Feb. 2025
Gemini 3.1 Pro / 3.5 Flash · Gemma 4: Jan. 2025
Opus 4.8 · Fable/Mythos 5 · GPT-5.x: kein Cutoff-Datum angegeben

Aktuelles aus der KI-Welt →

Skalieren Sprachmodelle zu AGI? Eine offene Debatte

Eine der größten offenen Fragen lautet: Führt reines Weiterskalieren heutiger Sprachmodelle zu allgemeiner Intelligenz (AGI – ein System, das die meisten geistigen Aufgaben auf menschlichem Niveau beherrscht) – oder braucht es dafür ein anderes Paradigma? Beide Lager argumentieren bislang vor allem über Plausibilität, nicht über entscheidende Evidenz. Wir rahmen die Debatte deshalb als offen und entscheiden sie nicht.

Für die Skalierungs-These spricht ein Argument, das der quellenbewusste Analyse-Kanal AI Explained zuspitzt: AGI-Definitionen, die eine „Lücke zum Menschen“ verlangen, scheitern am Gegenbeispiel – auch zwischen Mensch und Schimpanse klafft eine Lücke, und trotzdem nennt niemand den Menschen deshalb nicht intelligent. Ob weiteres Skalieren über langen Kontext und Reinforcement Learning zu sehr allgemeiner Fähigkeit führt, sei eine offene Forschungsfrage, kein erledigter Fall.

Dagegen steht die These vom nötigen Paradigmenwechsel. Der ML-historisch präzise Kanal Welch Labs ordnet die Gegenposition von Yann LeCun ein: Reine Sprach-LLMs seien eine Sackgasse Richtung AGI; es brauche Weltmodelle (LeCuns JEPA-Ansatz) und echtes Lernen aus Welt-Interaktion statt nur aus Text. In dieselbe Richtung argumentiert der Forscher Michael I. Jordan im Interview-Kanal MLST: Intelligenz sei „kollektiv, nicht einzel-modellhaft“ – also keine Eigenschaft, die ein einzelnes hochskaliertes Modell erreicht. Als vorsichtigen Akzent formuliert der Physiker Adam Brown im Podcast Dwarkesh den finalen Test pointiert: Kunst erfinden zu können wäre der eigentliche Maßstab für KI – ausdrücklich als offene, spekulative Frage, nicht als Prognose.

Festzuhalten bleibt: Es gibt hier keine belastbare Entscheidung. Die tragenden Belege sind eingeordnete Experten-Stimmen, keine reproduzierbaren Studien – und genau deshalb behandeln wir die Frage als offen und verzichten bewusst auf Zeitprognosen.

Position A (Skalierung trägt): langer Kontext + RL → allgemeine Fähigkeit; „Lücke zum Menschen“-Definition scheitert (Mensch ↔ Schimpanse)
Position B (neues Paradigma): Weltmodelle/JEPA statt nur Text (LeCun); „Intelligenz ist kollektiv“ (M. I. Jordan)
Status: offen – getragen von eingeordneten Stimmen, nicht von entscheidenden Studien

MerksatzOb LLMs allein zu AGI skalieren, ist nicht entschieden – wer es als ausgemacht verkauft, in die eine oder andere Richtung, übertreibt.

Wie KI-Sprachmodelle technisch funktionieren →Sicherheit, Alignment & Governance →

Ungleichmäßige Fähigkeit: das „jagged“ Profil

Modelle sind in ihren Fähigkeiten ungleichmäßig – im Englischen „spiky“ oder „jagged“. Rekordleistung in einer Domäne überträgt sich nicht automatisch auf eine andere; eine einzelne IQ-artige Achse, an der man ein Modell als Ganzes einordnen könnte, gibt es nicht. So beobachtet es auch der Analyse-Kanal AI Explained: Spitzenwerte in einem Bereich sagen wenig über das Verhalten nebenan.

Ob sich diese Zacken mit weiterem Training glätten oder dauerhaft bleiben, ist offen. Praktisch heißt das: Verlass dich nicht auf einen Gesamteindruck, sondern teste das Modell an deiner konkreten Aufgabe.

MerksatzEin Modell, das eine Sache brillant kann, kann die nächste überraschend schlecht – es gibt keine einzelne Fähigkeitsachse.

Warum Benchmark-Spitzenwerte oft täuschen →

Vorsicht mit dem „Reasoning“: Chain-of-Thought-Treue

Reasoning-Modelle zeigen oft ihre „Gedanken“, bevor sie antworten. Verlockend ist, das als Blick in den echten Entscheidungsweg zu lesen – doch das ist es nicht zuverlässig. Die Anbieter selbst nennen die Treue dieser Begründungen „von ungewissem Grad“: Der sichtbare Reasoning-Text muss nicht abbilden, wie das Modell intern tatsächlich zu seiner Antwort kam.

Anthropic nutzt Reasoning-Inhalte im Training bewusst nicht als Belohnungssignal, um sie als Monitoring-Signal nicht zu verfälschen; OpenAI nennt die Überwachbarkeit der Gedankenkette „fragil“. Für die Praxis heißt das: Eine plausibel klingende Begründung ist kein Beweis für die wahren Gründe einer Antwort – behandle sie als Erläuterung, nicht als Audit-Protokoll.

MerksatzDer sichtbare „Gedankengang“ ist eine Erzählung, kein Protokoll. Er belegt nicht, wie das Modell wirklich entschieden hat.