← Wissen

Verhalten

Was Sprachmodelle können – und wo sie scheitern

Wer LLMs produktiv nutzt, stößt schnell auf wiederkehrende Verhaltensmuster. Sie sind kein Bug, sondern folgen aus der Funktionsweise. Diese Seite ordnet die wichtigsten ein – damit du Ergebnisse richtig einschätzt, statt ihnen blind zu vertrauen.

  • 2 Min. Lesezeit
  • 5 Abschnitte
  • 2 Quellen

Halluzinationen

Als Halluzination bezeichnet man plausibel klingende, aber falsche oder frei erfundene Inhalte – etwa erfundene Quellen, falsche Zahlen oder nicht existierende Funktionen. Sie sind strukturell bedingt: Das Modell erzeugt wahrscheinliche Sprache, nicht geprüfte Fakten, und ist darauf trainiert, hilfreich zu antworten statt zu schweigen.

Vollständig abstellen lässt sich das nicht. Mindern kann man es durch das Bereitstellen von Quellen (RAG), durch die Aufforderung, Unsicherheit zu benennen, und durch konsequente Nachprüfung wichtiger Aussagen.

Merksatz Eine selbstbewusst klingende Antwort ist kein Beleg. Wichtige Fakten immer gegenprüfen.

Temperatur & Sampling

Über Sampling-Parameter wie die Temperatur lässt sich steuern, wie „zufällig“ ein Modell formuliert: Niedrige Werte liefern fokussierte, wiederholbarere Antworten, höhere Werte mehr Varianz und Kreativität.

Ob Temperatur 0 eine vollständig deterministische, reproduzierbare Ausgabe garantiert, ist in der Praxis umstritten – Hardware, Parallelisierung und Implementierungsdetails können Restvarianz erzeugen. Verlasse dich für kritische Workflows nicht auf exakte Reproduzierbarkeit allein über die Temperatur.

Reasoning- und Thinking-Modelle

Manche Modelle erzeugen vor der eigentlichen Antwort längere interne Denkschritte. Das verbessert Ergebnisse bei Logik, Mathematik und mehrstufigen Aufgaben spürbar, kostet aber mehr Tokens und Zeit.

Für einfache Aufgaben ist dieser Aufwand unnötig. Die Kunst liegt darin, den Modus zur Aufgabe zu wählen – nicht jede Frage braucht ausführliches Nachdenken.

Wissensstichtag (Knowledge Cutoff)

Das Trainingswissen eines Modells endet zu einem bestimmten Datum. Ereignisse danach kennt es nur, wenn ihm aktuelle Information zur Laufzeit mitgegeben wird – über Websuche, Tools oder RAG.

Anbieter unterscheiden dabei teils zwischen einem „zuverlässigen“ Wissensstichtag und dem breiteren Trainingsdaten-Zeitraum. Für aktuelle Fakten gilt: ohne Werkzeuge kein verlässliches Tagesgeschehen.

Aktuelles aus der KI-Welt →

Vorsicht mit dem „Reasoning“: Chain-of-Thought-Treue

Reasoning-Modelle zeigen oft ihre „Gedanken“, bevor sie antworten. Verlockend ist, das als Blick in den echten Entscheidungsweg zu lesen – doch das ist es nicht zuverlässig. Die Anbieter selbst nennen die Treue dieser Begründungen „von ungewissem Grad“: Der sichtbare Reasoning-Text muss nicht abbilden, wie das Modell intern tatsächlich zu seiner Antwort kam.

Anthropic nutzt Reasoning-Inhalte im Training bewusst nicht als Belohnungssignal, um sie als Monitoring-Signal nicht zu verfälschen; OpenAI nennt die Überwachbarkeit der Gedankenkette „fragil“. Für die Praxis heißt das: Eine plausibel klingende Begründung ist kein Beweis für die wahren Gründe einer Antwort – behandle sie als Erläuterung, nicht als Audit-Protokoll.

Merksatz Der sichtbare „Gedankengang“ ist eine Erzählung, kein Protokoll. Er belegt nicht, wie das Modell wirklich entschieden hat.