Techniken

KI richtig nutzen: Prompting, RAG, Agenten

Der Unterschied zwischen frustrierenden und nützlichen Ergebnissen liegt selten am Modell, sondern an der Nutzung. Diese Seite gibt einen Überblick über die wichtigsten Techniken – von der Formulierung bis zur Anbindung externer Werkzeuge.

5 Min. Lesezeit
9 Abschnitte
10 Quellen
Stand: 16. Juni 2026

Diagramm der RAG-Pipeline: Frage → Embedding → Vektor-Suche in der Wissensbasis → Top-Treffer → Reranking → Prompt + Kontext → Sprachmodell → Antwort mit Quellen. Das Modell bekommt die passenden Belege in den Prompt, statt sie aus dem Gedächtnis zu raten.

Prompting-Grundlagen

Gute Prompts sind konkret. Bewährt haben sich fünf Bausteine: eine klare Instruktion, relevanter Kontext, gegebenenfalls eine Rolle, ein, zwei Beispiele für das gewünschte Format (Few-shot) und – bei kniffligen Aufgaben – die Aufforderung, Schritt für Schritt vorzugehen (Chain-of-Thought).

Die meisten schlechten Antworten sind schlecht gestellte Fragen. Wer Format, Zielgruppe und Umfang vorgibt, spart sich Nacharbeit.

Eine nützliche Faustregel bei fähigen Modellen, besonders bei Agenten-Aufgaben: Sag, was du erreichen willst und warum – statt jeden Einzelschritt vorzuschreiben. Überspezifizierte Step-by-Step-Anweisungen engen ein gutes Modell oft eher ein, als dass sie helfen; das Prinzip knüpft an die gleiche Logik, aus der Few-shot- und Chain-of-Thought-Prompting ihre Wirkung ziehen – das Ziel klarmachen, den Weg dem Modell überlassen.

Instruktion: klare Aufgabe – was, für wen, in welchem Format
Kontext: relevante Fakten/Daten direkt mitgeben
Rolle: Perspektive/Fachrolle vorgeben
Few-shot: ein, zwei Beispiele fürs gewünschte Format
Chain-of-Thought: „Schritt für Schritt“ – hilft v. a. bei Logik/Mathe

MerksatzErst Kontext, dann Frage. Sag, was du willst, für wen, in welchem Format.

RAG – Retrieval-Augmented Generation

Bei RAG werden zur Laufzeit passende Dokumente gesucht und dem Modell als Kontext mitgegeben. So antwortet es auf Basis deiner Daten und aktueller Quellen statt nur aus dem Training – das erhöht Aktualität und Faktentreue und liefert nachvollziehbare Belege.

RAG ist oft die günstigere und flexiblere Alternative zum Nachtrainieren, wenn es vor allem um Wissen geht, das sich ändert.

RAG ist dabei kein Endpunkt, sondern eine Stufe auf einer Leiter: Klassisches RAG holt einmalig Kontext und antwortet. Beim Agentic RAG steuert das Modell die Suche selbst – es entscheidet iterativ, was es noch nachschlagen muss, formuliert Folge-Abfragen und arbeitet mit den Treffern weiter. Genau dieser Übergang führt zum vollen Agenten. Diese RAG-zu-Agent-Stufung beschreibt der Lehrkanal Serrano Academy, und sie deckt sich mit unserer Definition eines Agenten als System, das seinen eigenen Ablauf und Werkzeugeinsatz dynamisch selbst steuert.

Klassisches RAG: holt einmalig passenden Kontext, dann Antwort
Agentic RAG: Modell steuert das Retrieval iterativ selbst
Agent: voller, mehrschrittiger werkzeuggesteuerter Ablauf

Tiefer: Agenten, Tool-Use & MCP →

Embeddings & Vektorsuche

Damit RAG die passenden Dokumente überhaupt findet, braucht es ein Maß für inhaltliche Ähnlichkeit. Genau das liefern Embeddings: Ein Modell bildet Text (oder Bild, Audio) auf einen Vektor ab – eine lange Liste von Zahlen –, sodass inhaltlich Ähnliches geometrisch nah beieinanderliegt. „Arzt“ und „Ärztin“ landen dicht zusammen, „Arzt“ und „Schraubenschlüssel“ weit auseinander.

Diese Vektoren werden in einer Vektordatenbank abgelegt; zur Laufzeit sucht das System die zur Frage nächstgelegenen Treffer und reicht sie als Kontext ans Modell. Embeddings sind damit der Motor hinter semantischer Suche und RAG – und der Grund, warum man nicht mehr auf exakt gleiche Stichwörter angewiesen ist.

MerksatzEmbeddings machen Bedeutung messbar: Ähnliches liegt nah beieinander. Das ist der Motor der semantischen Suche.

Retrieval, das wirklich trifft: Hybrid Search & Reranking

Embeddings finden Bedeutungsnähe – aber Nähe ist nicht dasselbe wie Relevanz, und schon gar nicht wie Wahrheit. Eine falsche Aussage kann einer Frage embeddingnäher liegen als die richtige, weil sie dieselben Wörter und denselben Tonfall trägt. Genau hier hakt naive Vektorsuche: Sie holt, was ähnlich klingt, nicht, was die Frage beantwortet.

Zwei Techniken setzen darauf auf. Hybrid Search kombiniert die klassische Stichwortsuche (Keyword/BM25 – findet exakte Begriffe, Namen, Fehlercodes) mit der semantischen Embedding-Suche (findet sinnverwandte Formulierungen) und ist in der Praxis robuster als jede der beiden allein, weil sich ihre Stärken komplementär ergänzen. Reranking schiebt einen zweiten Schritt nach: Ein eigens auf die Frage „Ist das die Antwort auf diese Frage?“ trainiertes Netz – ein Cross-Encoder – bewertet jeden Kandidaten-Treffer auf Relevanz, statt nur auf geometrische Ähnlichkeit. So sortiert es die Embedding-Treffer neu und hebt die wirklich passenden nach oben.

Diese Methoden-Abgrenzung – Embedding misst Ähnlichkeit, Hybrid Search ergänzt Stichwort und Semantik, Reranking misst Relevanz – stammt als Lehrstück vom Lehrkanal Serrano Academy (Luis Serrano), den wir als didaktisch verlässlich einstufen. Wichtig: Das zugrunde liegende Video ist eine offengelegte Werbe-Kooperation mit einem Suchanbieter; wir übernehmen deshalb nur das Methoden-Prinzip, ausdrücklich keine Tool-Empfehlung und keine Performance-Zahl. Ob Hybrid Search und Reranking generell und um wie viel besser sind, ist eine offene Frage, die erst unabhängige Retrieval-Benchmarks (BEIR/MTEB, Reranker-Doku) abschließend belegen können – bis dahin gilt das hier als plausibles Praxis-Prinzip, nicht als harte Kennzahl.

Embedding-Suche: misst Bedeutungs-Ähnlichkeit – nicht Relevanz, nicht Wahrheit
Hybrid Search: Keyword/BM25 + Semantik – robuster als jede Einzelmethode
Reranking (Cross-Encoder): eigenes Netz, bewertet Relevanz statt bloßer Ähnlichkeit

MerksatzÄhnlichkeit ist nicht Relevanz: Hybrid Search holt breiter, ein Reranker sortiert nach „beantwortet das die Frage?“ – das ist robuster als reine Vektorsuche.

Warum eine große Zahl beim Kontextfenster wenig sagt →

Großes Kontextfenster ist keine Lösung: Context Engineering

Wenn man Modelle ohnehin mit Dokumenten füttern kann – warum dann überhaupt sorgfältig kuratieren statt einfach den ganzen Korpus in ein riesiges zu kippen? Weil das Fenster ein Kapazitäts-Maximum ist, keine Qualitätsgarantie. Studien wie „Lost in the Middle“ und „RULER“ zeigen, dass die effektiv nutzbare Länge meist deutlich unter der beworbenen liegt und die Trefferqualität positionsabhängig zur Mitte hin sowie mit zunehmender Länge oder mit Ablenkern abfällt.

Die Konsequenz für die Praxis ist eine Disziplin, nicht eine Größenangabe: Context Engineering, nicht Context Stuffing. Statt einen Dokumentenstapel hineinzuwerfen, kuratiert man gezielt – relevante Information gehört an Anfang und Ende des Kontexts, nicht in dessen Mitte. Genau deshalb bleibt sauberes Retrieval (RAG, Hybrid Search, Reranking) auch im Zeitalter der Millionen-Token-Fenster wertvoll: Es entscheidet, was überhaupt in den Kontext kommt. Feste Prozentwerte sollte man sich nicht einbrennen – sie hängen vom Modell und vom Stichtag ab.

MerksatzMehr Kontextfenster ist nicht mehr Können: Kuratiere den Kontext, statt den Korpus reinzukippen – Context Engineering, nicht Context Stuffing.

Warum ein großes Kontextfenster kein besseres Modell ist →Wie Tokens und das Kontextfenster funktionieren →

Tool-Use & Function-Calling

Moderne Modelle können definierte Werkzeuge aufrufen – eine Rechenfunktion, eine Datenbankabfrage, eine API. Das Modell entscheidet, wann ein Tool nötig ist, und arbeitet mit dessen Ergebnis weiter. So werden aus reinen Textantworten Aktionen.

Tool-Use ist die Grundlage für zuverlässige Mathematik, Live-Daten und die Anbindung an bestehende Systeme.

Wer führt aus?: nicht das Modell – es liefert nur einen strukturierten Aufruf
Definition: Werkzeug = Name, Beschreibung, JSON-Schema
Wofür: zuverlässige Mathematik, Live-Daten, Aktionen in Systemen

Agenten

Agenten sind Systeme, in denen ein Modell mehrschrittig plant, Werkzeuge nutzt, Zwischenergebnisse prüft und sich selbst korrigiert – etwa um eine Rechercheaufgabe oder eine Code-Änderung autonom zu erledigen.

Mehr Autonomie bedeutet mehr Nutzen, aber auch mehr Fehlerquellen. Klare Aufgaben, Prüfschritte und Rückfall-Optionen sind hier entscheidend.

Tiefer: Agenten, Tool-Use & MCP →

MCP – Model Context Protocol

Das Model Context Protocol ist ein offener Standard, um KI-Anwendungen mit externen Systemen zu verbinden – Datenquellen, Werkzeuge, Workflows. Sein Bild dafür: ein „USB-C-Anschluss für KI“, der einmal gebaut und überall angebunden werden kann.

Statt für jede App eine eigene Integration zu schreiben, sprechen Clients und Server eine gemeinsame Sprache. MCP wird inzwischen breit von KI-Clients und Entwicklungswerkzeugen unterstützt.

Werkzeuge & Tooling →

Fine-tuning – oder doch Prompting/RAG?

Fine-tuning passt die Gewichte eines Modells an einen eigenen Datensatz an – anders als Prompting und RAG, die das Modell unverändert lassen und nur den Kontext steuern. Das klingt mächtig, ist aber selten der erste richtige Hebel: Es kostet Daten, Rechenzeit und Pflege und wird mit jedem neuen Basismodell wieder fällig.

Eine brauchbare Heuristik: RAG für Wissen und Fakten (die sich ändern), Fine-tuning für Verhalten, Stil und Format (ein bestimmter Ton, ein striktes Ausgabeschema). Und in dieser Reihenfolge: erst Prompting und RAG ausreizen, bevor man nachtrainiert.

Was passiert: Fine-tuning ändert die Gewichte – Prompting/RAG lassen das Modell unverändert
Kosten: Daten, Rechenzeit, Pflege – mit jedem Basismodell wieder fällig
Heuristik: RAG für Wissen/Fakten · Fine-tuning für Verhalten/Stil/Format

MerksatzRAG für Wissen, Fine-tuning für Verhalten und Stil. Erst Prompting und RAG ausschöpfen, dann erst nachtrainieren.

Aktuelle Depeschen

Anthropic löscht 80 Prozent von Claude Codes System-Prompt – und rät, CLAUDE.md und Skills genauso zu entrümpeln →EU-Digitalisierungsbericht 2026: Deutschland bei KI-Adoption über dem Schnitt – aber flach →Ramp-Daten: Anthropic baut Enterprise-Vorsprung auf 41 % aus →Klage gegen Anthropic: Claude-Max-Limits angeblich überzeichnet →