Das Modell verstärken: Kontext, Gedächtnis und Skills
Das beste Ergebnis hängt seltener am Modell als an dem, was es umgibt: was im Kontextfenster landet, was über eine Sitzung hinaus erhalten bleibt und welche Fähigkeiten wiederverwendbar bereitstehen. Diese Seite ist der Schwerpunkt für die Werkzeugschicht über dem Modell – die Praktiken und Werkzeuge, die den Umgang mit KI-Modellen messbar verbessern, ohne das Modell selbst zu ändern: Kontext-Engineering, persistentes Gedächtnis, Wissensgraphen, Skills und die Kontextdateien, die ein Projekt für Agenten lesbar machen. Sie vertieft, was der Überblicksartikel zur Nutzung nur anreißt.
6 Min. Lesezeit
8 Abschnitte
9 Quellen
Stand: 21. Juni 2026
Warum der Umgang über das Modell entscheidet
Zwei Sitzungen mit demselben Modell können meilenweit auseinanderliegen – nicht weil das Modell ein anderes wäre, sondern weil das Drumherum ein anderes war. Genau dort liegt der größte und am meisten unterschätzte Hebel: nicht ein größeres Modell, sondern ein besser kuratierter Kontext, ein verlässliches Gedächtnis und wiederverwendbare Fähigkeiten. Anthropic nennt diese Disziplin Kontext-EngineeringDie Disziplin, gezielt zu kuratieren, welche Tokens während der Inferenz im Kontextfenster stehen – statt möglichst viel hineinzukippen. Kontext ist eine endliche Ressource; Ziel ist „informativ, aber knapp“. Gilt als Fortsetzung des Prompt-Engineerings.Mehr im Wissen → und beschreibt sie als natürliche Fortsetzung des Prompt-Engineerings: weg von der Suche nach den richtigen Worten, hin zur Frage, welche Konfiguration von Kontext das gewünschte Verhalten am wahrscheinlichsten macht.
Der Grund, warum es dafür überhaupt eine Disziplin braucht: Kontext ist eine endliche Ressource. Drei Effekte setzen ihm Grenzen. Erstens Context RotBeobachtung, dass die Treffsicherheit eines Modells beim Wiederfinden von Information sinkt, je mehr Tokens im Kontextfenster stehen – mehr Kontext heißt nicht automatisch mehr Können.Mehr im Wissen → – je mehr Tokens im Fenster stehen, desto unzuverlässiger findet das Modell die relevante Information wieder. Zweitens ein begrenztes „Attention Budget“: Die Aufmerksamkeit eines Transformers verteilt sich über alle Token-Paare (n² Beziehungen bei n Tokens), jeder zusätzliche Token zehrt davon. Drittens der positionsabhängige Qualitätsabfall – Information in der Mitte langer Kontexte geht unter („Lost in the Middle“), und die effektiv nutzbare Kontextlänge liegt regelmäßig unter der beworbenen (RULER).
meist kleiner als die beworbene (RULER); Mitte geht unter (Lost in the Middle)
MerksatzMehr Kontextfenster ist nicht mehr Können. Der Hebel ist nicht das größere Modell, sondern der besser verwaltete Kontext.
Kontext kuratieren: Just-in-time statt vorab
Die erste praktische Frage ist die nach dem Wann: Lädt man allen potenziell relevanten Stoff vorab ins Fenster – oder hält man nur leichte Verweise bereit (Dateipfade, gespeicherte Abfragen, Links) und holt die Inhalte zur Laufzeit gezielt nach? Anthropic empfiehlt für Agenten das Zweite („just in time“). Claude Code etwa schreibt gezielte Abfragen, speichert Zwischenergebnisse und nutzt Kommandos wie head und tail, um große Datenmengen zu sichten, ohne sie je vollständig ins Fenster zu ziehen. Für tempokritische Fälle ist eine Mischform sinnvoll: etwas vorab laden, den Rest autonom erkunden lassen.
Die zweite Frage stellt sich, wenn es eng wird: Compaction. Nähert sich ein Gespräch der Fenstergrenze, fasst man seinen Inhalt zusammen und startet ein frisches Fenster mit dieser Verdichtung. Die Kunst liegt in der Auswahl – was bleibt, was fällt weg; in der Praxis erst auf Vollständigkeit optimieren (nichts Wichtiges verlieren), dann auf Knappheit. Das gemeinsame Ziel all dieser Griffe bringt Anthropic auf eine Faustregel: den Kontext „informativ, aber knapp“ halten.
MerksatzKuratiere den Kontext, statt den Korpus reinzukippen: Verweise statt Volltext, verdichten statt anhäufen.
Was nicht ins Fenster passt – oder dort nicht dauerhaft Platz verdient –, gehört in ein Gedächtnis außerhalb davon. Das Muster: Der Agent schreibt strukturierte Notizen in einen persistenten Speicher und holt sie später gezielt zurück. Anthropic stellt dafür ein dateibasiertes „Memory“-Tool bereit, mit dem ein Agent Information außerhalb des Kontextfensters ablegen und nachschlagen kann.
Wie viel das ausmacht, zeigt ein anschauliches Beispiel: Ein Claude-Agent, der über Tausende Spielschritte hinweg Pokémon spielt, führt – ohne ausdrückliche Anweisung – präzise Zählstände und zeichnet Karten der erkundeten Gebiete. Solche Langhorizont-Strategien wären unmöglich, wenn alles allein im Kontextfenster gehalten werden müsste. Genau dieses Prinzip steckt hinter den Praktiker-Workflows, die eine Wissens-Datenbank wie Obsidian zum „zweiten Gehirn“ eines Coding-Agenten machen – das Gedächtnis lebt in Dateien, nicht im flüchtigen Kontext.
MerksatzDas Kontextfenster ist Arbeitsspeicher, kein Gedächtnis. Wichtiges gehört in dauerhafte Notizen, die der Agent bei Bedarf zurückholt.
Wissensgraphen: die Codebasis als Karte
Eine besonders wirksame Form solcher externen Struktur ist der WissensgraphWissen als Graph aus Entitäten (Knoten) und Beziehungen (Kanten). Fürs Retrieval (GraphRAG) erlaubt das „globale“ Schließen über einen Korpus und verbindet verstreute Fakten, die reine Vektorsuche übersieht.Mehr im Wissen →. Statt einen Korpus als losen Haufen von Textschnipseln zu behandeln (wie klassisches RAGRetrieval-Augmented Generation: dem Modell werden zur Anfrage passende Textstellen aus einer eigenen Wissensquelle beigelegt, damit es daraus antwortet statt nur aus dem Training. Reduziert Halluzinationen und hält Wissen aktuell.Mehr im Wissen → mit reiner Vektorsuche), organisiert man ihn als Graph aus Entitäten (Knoten) und Beziehungen (Kanten). Microsofts GraphRAG zeigte, dass ein Modell über einen solchen Graphen „global“ schließen und verstreute Fakten verbinden kann, die eine reine Ähnlichkeitssuche übersieht – es bekommt eine Karte des Korpus statt einzelner Fundstücke.
Für den Alltag mit Coding-Agenten bringt das ein Open-Source-Werkzeug wie Graphify auf den Punkt: Man richtet es als Skill auf einen Ordner – Code, SQL-Schemas, Doku, PDFs, sogar Bilder – und es destilliert daraus einen abfragbaren Wissensgraphen, den der Agent als Navigationskarte nutzt. Der Graph lässt sich nach Obsidian, als Neo4j-Export oder über einen MCP-Server bereitstellen. Das Projekt wirbt mit „71,5× weniger Tokens pro Abfrage“ gegenüber dem Einlesen der Rohdateien – eine Eigenangabe (Tier C), nicht unabhängig nachgemessen. Die Richtung ist plausibel (eine Karte ist billiger als das Gebiet), die genaue Zahl gehört vor dem Verlassen darauf selbst geprüft.
Graphify als Claude-Code-Skillbash
# einmalig installieren
pip install graphifyy && graphify install
# aktuellen Ordner zu einem Wissensgraphen verarbeiten
/graphify .
# externe Quelle (Doku, Repo, Artikel) dazuholen
/graphify add https://docs.example.com
Wiederkehrende Abläufe muss man nicht jedes Mal neu erklären. Ein Agent SkillWiederverwendbares Können als Ordner mit einer SKILL.md (Name, Beschreibung, Anleitung, optional Skripte). Die vollen Anweisungen lädt der Agent erst, wenn eine Aufgabe zur Beschreibung passt (Progressive Disclosure) – viele Skills bei wenig Kontextkosten.Mehr im Wissen → verpackt ein Können als Ordner mit einer SKILL.md: ein YAML-Kopf mit Name und Beschreibung, dazu die Anleitung und optional Skripte, Vorlagen oder Referenzdateien. Der Clou ist die schrittweise Offenlegung (Progressive Disclosure): Der Agent sieht zunächst nur Name und Beschreibung; die vollen Anweisungen lädt er erst, wenn eine Aufgabe dazu passt. So lassen sich viele Skills bereithalten, ohne den Kontext im Leerlauf zu fluten.
Anthropic hat das SKILL.md-Format als offenen Standard veröffentlicht; es wird inzwischen über mehrere Agenten-Produkte hinweg unterstützt. In der Praktiker-Szene wird daraus oft eine ganze „Agentic-OS“-Schicht gebaut, in der Skills als anklickbare Knöpfe für nicht-technische Teammitglieder erscheinen – ein bequemes Frontend, aber dasselbe Fundament: ein klar beschriebenes, wiederverwendbares Können statt eines Wegwerf-Prompts.
Den dauerhaftesten Kontext schreibt man ins Projekt selbst. Eine AGENTS.mdMarkdown-Datei im Projekt, die Coding-Agenten zu Beginn jeder Sitzung lesen – Konventionen, Architektur, Ge- und Verbote („README für Maschinen“). AGENTS.md ist der offene, herstellerübergreifende Standard; CLAUDE.md ist Anthropics Variante.Mehr im Wissen → (Anthropics Variante heißt CLAUDE.md) ist eine Markdown-Datei, die ein Coding-Agent zu Beginn jeder Sitzung liest – ein „README für Maschinen“ mit Konventionen, Architektur, Befehlen und ausdrücklichen Ge- und Verboten. Statt jede Sitzung neu zu erklären, wie das Projekt tickt, steht es versioniert im Repo.
AGENTS.md ist dabei der herstellerübergreifende offene Standard, im August 2025 gemeinsam von OpenAI, Google, Cursor, Factory und Sourcegraph formalisiert und inzwischen in zehntausenden Repositories im Einsatz. Das Format ist bewusst schlicht – reines Markdown ohne erzwungene Struktur; in Monorepos gilt die jeweils nächstgelegene Datei (hierarchisch). Es ist Kontext-Engineering als festgehaltenes Artefakt: einmal sauber geschrieben, profitiert jede künftige Sitzung.
Ein wichtiger Vorbehalt: Mehr ist hier nicht besser. Eine kontrollierte Studie (Gloaguen et al., „Evaluating AGENTS.md“, Februar 2026) ließ vier Coding-Agenten über hunderte echte GitHub-Issues laufen – und fand, dass automatisch generierte Kontextdateien die Erfolgsrate im Schnitt um rund 3 % senkten und selbst handgeschriebene bestenfalls 4 % brachten, bei jeweils über 20 % höheren Kosten. Der Grund liegt nicht nur am längeren Prompt: Die Datei verleitet den Agenten auch zu mehr unnötigem Stöbern. Die Lehre ist also nicht „keine AGENTS.md“, sondern eine knappe, handkuratierte – nur die wirklich nötigen Regeln, keine automatisch erzeugte Wand aus Selbstverständlichkeiten.
Wird eine Aufgabe zu groß für ein sauberes Fenster, hilft Arbeitsteilung. Statt einen einzigen Agenten den Zustand über ein ganzes Projekt schleppen zu lassen, übernehmen spezialisierte SubagentSpezialisierter Hilfs-Agent mit eigenem, sauberem Kontextfenster: Ein Leit-Agent koordiniert den Plan, Subagenten erledigen Teilaufgaben und liefern nur eine verdichtete Zusammenfassung (oft 1.000–2.000 Tokens) zurück – Kontext-Isolation als Arbeitsteilung.Mehr im Wissen → fokussierte Teilaufgaben mit jeweils frischem Kontextfenster. Der Leit-Agent hält nur den groben Plan; jeder Subagent erledigt seine Tiefenarbeit isoliert und liefert lediglich eine verdichtete Zusammenfassung zurück (oft 1.000–2.000 Tokens). Der detaillierte Such- und Lese-Kontext bleibt in den Subagenten gekapselt – eine klare Trennung der Zuständigkeiten.
Das ist mächtig, aber nicht gratis: Multi-Agenten-Systeme verbrauchen ein Vielfaches an Tokens, und der Mehrwert lohnt nur, wenn der Aufgabenwert das trägt. Wann sich parallele Agenten auszahlen – und wann ein linearer Ablauf mit Verdichtungsschritt die bessere Wahl ist – behandelt der Agenten-Artikel im Detail.
So verlockend die Werkzeuge sind – der eigentliche Gewinn steckt in der Disziplin dahinter, nicht im einzelnen Tool. Kontext kuratieren, Zustand verlässlich persistieren, Zuständigkeiten isolieren, Können wiederverwendbar machen: Diese Prinzipien tragen, gleich ob man sie mit Graphify, dem Memory-Tool oder einer handgepflegten AGENTS.md umsetzt. Das Ökosystem ist jung und schnelllebig; viele Werkzeuge überlappen, und nicht jedes hält, was sein Titel verspricht.
Zwei Warnungen gehören dazu. Erstens: Werbezahlen aus Tier-C-Quellen (etwa „71,5× weniger Tokens“ oder „77 % günstiger“) sind Behauptungen, keine Messungen – im eigenen Projekt nachprüfen, bevor man darauf baut. Zweitens, scheinbar paradox: Mehr Werkzeuge machen einen Agenten oft schlechter, nicht besser. Jedes zusätzliche Tool bläht Kontext und Entscheidungsraum; ein einzelnes, sauber beschriebenes Werkzeug schlägt häufig ein überladenes Sortiment. Verstärken heißt hier auch verschlanken.
MerksatzNicht das Modell smarter machen, sondern den Kontext enger führen: kuratieren, erinnern, isolieren, wiederverwenden – und jede Werbezahl selbst nachmessen.