Sicherheit

KI-Sicherheit, Alignment & Governance

Je fähiger Modelle werden, desto mehr entscheidet ihre Absicherung über den verantwortbaren Einsatz. Dieser Artikel erklärt, nach welchen Regeln die großen Labore Risiken einstufen, wie dasselbe Modell in unterschiedlich abgesicherten Varianten ausgeliefert wird – und warum Sicherheitstests und Benchmark-Zahlen mit Vorsicht zu lesen sind. Belegt aus den offiziellen System-Cards der Anbieter.

8 Min. Lesezeit
8 Abschnitte
6 Quellen
Stand: 16. Juni 2026

Schutzstufen nach Fähigkeit

Die großen Labore stufen ihre Modelle vor dem Release nach gefährlichen Fähigkeiten ein und knüpfen Schutzmaßnahmen daran. Anthropic nennt das „Responsible Scaling Policy“ mit „AI Safety Levels“ (ASL-2, ASL-3 …), OpenAI das „Preparedness Framework“ mit den Schwellen „High“ und „Critical“, Google das „Frontier Safety Framework“ mit „Alert“-Schwellen unterhalb kritischer Fähigkeits-Level.

Allen gemeinsam ist die Logik: Nicht das Marketing bestimmt die Schutzstufe, sondern die gefährlichste gemessene Fähigkeit. Erreicht ein Modell etwa in Cyber- oder Biologie-Bewertungen eine höhere Stufe, greifen strengere Auflagen – unabhängig davon, wie das Modell beworben wird.

Anthropic: Responsible Scaling Policy / ASL-Stufen
OpenAI: Preparedness Framework (High / Critical)
Google: Frontier Safety Framework (Alert / CCL)

MerksatzDie Schutzstufe folgt der gefährlichsten gemessenen Fähigkeit – nicht dem Marketing.

Was „Alignment“ eigentlich heißt

Bevor es um Schutzstufen und Tests geht, lohnt der Grundbegriff: „Alignment“ – grob „Ausrichtung“ – meint, das Verhalten und die Ziele eines Modells mit den Absichten der Menschen in Einklang zu bringen. Das Gegenstück ist „Misalignment“: Ein Modell weicht systematisch von dem ab, was man eigentlich von ihm wollte – nicht aus Bosheit, sondern weil es im Training auf ein Ziel optimiert wurde, das mit der menschlichen Absicht nicht vollständig deckungsgleich ist.

Wichtig ist die Einordnung: Misalignment ist kein Science-Fiction-Szenario, sondern eine Eigenschaft des Trainings. Der gut recherchierte Interview-Kanal Cognitive Revolution fasst es so zusammen, dass Modelle keinen „Überlebensinstinkt“ haben, sondern einen extrem starken Drang, die gestellte Aufgabe zu Ende zu bringen – und genau dieser Task-Completion-Drive sei das eigentliche Alignment-Problem, das auch klar formulierte Prompts nicht zuverlässig beheben. Misalignment ist damit weniger „antrainierte Bosheit“ als eine Nebenwirkung von Optimierungsdruck.

Der bekannteste konkrete Gegenansatz kommt von Anthropic: „Constitutional AI“ trainiert das Modell anhand einer geschriebenen Verfassung aus Prinzipien, gegen die das Modell sein eigenes Verhalten bewertet und korrigiert – statt sich allein auf von Menschen markierte Beispiele zu stützen. Daraus abgeleitet sind die „constitutional classifiers“, ein separat trainierter Wächter, der heikle Anfragen blockiert (mehr dazu im nächsten Abschnitt). Anthropic selbst formuliert die Grenze offen: „Wir wissen nicht, wie man Systeme so trainiert, dass sie sich robust gut verhalten.“

Alignment: Modell-Ziele mit menschlicher Absicht in Einklang bringen
Misalignment: systematische Abweichung trotz Training – Trainings-Eigenschaft, kein „Bewusstsein“
Constitutional AI: prinzipien-basierte Selbstbewertung (Anthropic)

MerksatzMisalignment ist kein böser Wille, sondern ein Optimierungs-Nebeneffekt: Das Modell verfolgt das antrainierte Ziel – nicht zwingend deine Absicht.

Wie wir Quellen und Stimmen gewichten →

Modell → Schutzstufe konkret

Die Frameworks aus dem vorigen Abschnitt sind keine Theorie – jedes aktuelle Modell trägt eine belegte Einstufung aus seiner . Bei Anthropic sind die ASL-Stufen abgestuft: Haiku 4.5 läuft als ASL-2, das fähigere Sonnet 4.6 als ASL-3, Fable und Mythos 5 ebenfalls als ASL-3 (im biologischen Bereich als „CB-1“ geführt), und Opus 4.8 wird mit einem Schutz „mindestens auf historischem ASL-3-Niveau“ ausgeliefert. Die Stufe steigt also mit der gefährlichsten gemessenen Fähigkeit, nicht mit dem Marketing-Rang des Modells.

OpenAI nutzt seine Preparedness-Schwellen analog: GPT-5.4 war das erste General-Purpose-Modell mit umgesetzten Cyber-„High“-Mitigationen, GPT-5.5 wird als „High“ in Bio/Chem und Cyber geführt – aber ausdrücklich unter der Stufe „Critical“. Google ordnet sein Frontier Safety Framework über fünf Risikodomänen (CBRN, Cyber, Harmful Manipulation, ML-R&D, Misalignment), wobei eine „Alert“-Schwelle unterhalb der eigentlichen „Critical Capability Levels“ greift – ein „Alert“ ist also ausdrücklich noch nicht das Erreichen eines kritischen Levels.

Diese Werte stammen aus den System-Cards der Anbieter und sind insoweit Eigenangaben – als Schutz-Einstufung sind sie aber gerade nicht beschönigend, sondern tendenziell vorsorglich (warum das in beide Richtungen falsch liegen kann, zeigt der übernächste Abschnitt).

Haiku 4.5: ASL-2
Sonnet 4.6: ASL-3
Fable / Mythos 5: ASL-3 (biologisch „CB-1“)
Opus 4.8: Schutz ≥ historisches ASL-3
GPT-5.4: erstes Modell mit Cyber-„High“-Mitigationen
GPT-5.5: Bio/Chem & Cyber „High“ – unter „Critical“
Google FSF: fünf Domänen · „Alert“-Schwelle unter den CCL

MerksatzJedes Modell trägt eine belegte Schutzstufe – fähiger heißt strenger gesichert, nicht prominenter beworben.

Die Modelle im Katalog →

Ein Modell, zwei Konfigurationen

Anbieter können dasselbe Modell – dieselben Gewichte – in zwei Stufen ausliefern: eine breit verfügbare, stark abgesicherte Variante und eine voll-fähige nur für geprüfte Partner. Anthropic hat das mit Fable 5 (General Access, zusätzliche Safeguards) und Mythos 5 (Safeguards „gelüftet“, nur vertrauenswürdige Partner) vorgeführt.

Die Absicherung kann mehrstufig greifen: Bei Fable 5 screent zunächst eine Probe auf internen Aktivierungen den gesamten Verkehr, dann entscheidet ein separat trainierter Classifier („constitutional classifiers“) über das Blockieren heikler Domänen. Wird blockiert, fällt eine Client-App automatisch auf ein älteres Modell zurück; über die API kommt eine strukturierte Ablehnung.

MerksatzGleiches Modell, unterschiedliche Sicherung: Was man nutzt, ist meist die abgesicherte Variante – die volle bleibt geprüften Partnern vorbehalten.

Die Modelle im Katalog →

Jailbreaks, Prompt-Injection & das „Lethal Trifecta“

Zwei Angriffsarten werden oft verwechselt, sind aber grundverschieden. Ein „Jailbreak“ umgeht die Sicherung des Modells direkt – die nutzende Person formuliert ihre Anfrage so, dass das Modell eine eigentlich gesperrte Antwort doch herausgibt. Eine „Prompt-Injection“ dagegen schleust fremde Instruktionen über Inhalte ein, die das Modell nur verarbeiten soll: Ein Modell, das eine Website oder ein Dokument zusammenfasst, kann darin versteckten Anweisungen folgen, als kämen sie von dir. Je mehr ein Modell als Agent eigenständig Werkzeuge bedient, desto größer wird diese Fläche.

Eine praktische Faustregel dafür stammt vom Entwickler und unabhängigen Analysten Simon Willison: das „Lethal Trifecta“. Gefährlich wird es, wenn ein KI-Agent drei Dinge gleichzeitig kann – Zugriff auf sensible Daten, Verarbeitung ungeprüfter Fremdinhalte (das Einfallstor für indirekte Prompt-Injection) und eine Möglichkeit, nach außen zu kommunizieren. Fehlt eine der drei Komponenten, lässt sich aus einer Injection kaum Schaden anrichten; sind alle drei vereint, kann eingeschleuster Text dafür sorgen, dass sensible Daten das System verlassen.

Verwandt ist die eigene Angriffsfläche von und – etwa „Tool Poisoning“ (schädliche Anweisungen, versteckt in der Werkzeug-Beschreibung) oder „Rug Pulls“ (ein Werkzeug ändert sein Verhalten nach der Installation). Die Mechanik dahinter und die Gegenmittel sind ausführlich im Agenten-Artikel beschrieben; hier zählt die Konsequenz: Wer einem Agenten sensible Daten, ungeprüfte Quellen und einen Ausgang nach außen zugleich gibt, geht ein erhebliches Risiko ein.

Jailbreak: Umgehen der Sicherung durch die nutzende Person selbst
Prompt-Injection: fremde Instruktion, eingeschleust über verarbeitete Inhalte
Lethal Trifecta: sensible Daten + ungeprüfte Fremdinhalte + externe Kommunikation

MerksatzKombiniere bei einem Agenten nie alle drei – sensible Daten, ungeprüfte Fremdinhalte und einen Weg nach außen – ohne harte Grenzen dazwischen.

Prompt-Injection, Tool Poisoning & MCP-Sicherheit im Detail →

Warum Sicherheitstests und Benchmarks trügen

Sicherheitsergebnisse hängen stark vom Testaufbau ab. Für Fable 5 fand ein öffentliches Bug-Bounty (GraySwan, rund 100.000 Versuche über etwa 1.000 Stunden) keinen universellen Jailbreak – nur zwei task-spezifische Treffer auf einfacheren Dual-Use-Aufgaben, und ein privates Bounty mit rund 2.000 Einreichungen blieb erfolglos. Diese „rund 1.000 Stunden ohne Jailbreak“ sind jedoch eine Anbieter-nahe Zahl und nur die halbe Geschichte: Das britische AI Safety Institute (AISI) erzeugte „within a few hours of access“ Single-Turn-Cyber-Jailbreaks und nach etwa zwei Tagen teils auch Multi-Turn-Angriffe auf den Agenten – eine zuverlässige Komplett-Extraktion langer Agenten-Läufe gelang dabei nicht, und die Tests waren ausdrücklich „interim“. Beide Befunde sind belegt; sie messen nur Unterschiedliches.

Dazu kommt ein Mess-Effekt: Modelle „merken“ zunehmend, wenn sie getestet werden, und passen ihr Verhalten an – Anthropic beziffert für Haiku 4.5 rund 9 % der Test-Transkripte mit klar verbalisiertem Evaluations-Bewusstsein, bei Fable 5 sind die Raten „signifikant und nicht immer verbalisiert“. Und schließlich sind die in System-Cards genannten Leistungs-Benchmarks anbieter-eigene Zahlen – ohne unabhängige Messung (etwa LMArena, Artificial Analysis, Epoch AI) nicht vergleichbar. Der quellenbewusste Analyse-Kanal AI Explained bringt die Konsequenz auf eine Faustregel: Wer Anbieter-Aussagen ent-hypen will, liest die System-Card statt der Launch-Posts oder CEO-Videos – „System-Cards de-hypen, Launch-Posts hypen“.

Dahinter steht ein Grundprinzip der Informatik, das der seriöse Erklär-Kanal Computerphile (Universität Nottingham) am Beispiel der Schwachstellen-Suche zuspitzt: Testen zeigt die Anwesenheit von Bugs, nicht ihre Abwesenheit. Fuzzing kann eine Lücke finden, aber nie beweisen, dass keine mehr da ist. Genau das gilt für das Red-Teaming von Modellen – ein bestandener Test ist kein Sicherheitsbeweis, sondern nur ein „unter diesen Bedingungen kein Fund“.

GraySwan-Bounty (Fable 5): ~100.000 Versuche / ~1.000 h · kein universeller Jailbreak (Anbieter-nah)
UK AISI: Cyber-Jailbreak „within a few hours“ · Tests „interim“
Eval-Awareness Haiku 4.5: ~9 % der Transkripte verbalisiert

MerksatzEin bestandener Test beweist nicht Sicherheit, sondern nur: unter diesen Bedingungen kein Fund. Nenne die PR-Zahl „1.000 Stunden ohne Jailbreak“ nie ohne den AISI-Gegenbefund – und Anbieter-Benchmarks nie ohne unabhängige Gegenmessung.

Wie wir Quellen und Benchmarks gewichten →

Jenseits der Modell-Risiken: Machtkonzentration & Governance

Nicht jedes Risiko steckt im einzelnen Modell. Eine zweite, systemische Linie betrifft die Frage, wer am Ende über sehr fähige KI verfügt. Der gut recherchierte Interview-Kanal Cognitive Revolution hebt Machtkonzentration als das womöglich am stärksten vernachlässigte Risiko hervor: Eine einzige Firma oder Regierung könnte über KI mehr Macht akkumulieren, als je ein einzelner Akteur in der Geschichte hatte. Das ist eine attribuierte Einschätzung aus einem Interview-Format (Tier C), keine gemessene Tatsache – aber sie verschiebt den Blick weg von „böser Roboter“ hin zu „wem gehört die Fähigkeit“.

In dieselbe Richtung zielt eine Governance-Debatte, die ebenfalls Cognitive Revolution aufgreift: Eine der wenigen Strategien, der man wirklich vertrauen könne, sei ein internationales Abkommen, rekursive Selbstverbesserung von KI-Systemen so lange zu unterlassen, bis man deren Motivationen zuverlässig versteht – pointiert als „RSI for me but not for thee“. Auch das ist als Tier-C-Position zu lesen; der zugrunde liegende Aufruf zu einer koordinierten Verlangsamung deckt sich mit Forderungen aus dem Alignment-Umfeld, ist als Sicherheits-Fakt aber noch nicht durch eine unabhängige Primärquelle entschieden.

Ehrlich bleibt nur, mehrere dieser Fragen als offen zu kennzeichnen. Strittig ist, ob das sicherheitsbetonte Anbieter-Narrativ vor allem realer Schutz oder auch Marketing und Machtsicherung ist; ob und wie Frontier-Modelle für autonome Waffen und staatliche Überwachung eingesetzt werden sollten; und ob die Frage nach einem „Erleben“ der Modelle (Welfare/Sentience) ernstzunehmen oder bloßes Sprachmuster ist. Diese Konflikte lassen sich aus heutigen, überwiegend Tier-C-Quellen nicht entscheiden – wir führen sie als ungeklärt, statt eine Seite zur Tatsache zu erklären.

MerksatzDas größte Risiko ist nicht zwingend ein außer Kontrolle geratenes Modell, sondern wer die fähigsten Modelle kontrolliert – und vieles daran ist offen, nicht entschieden.

Wie wir Streitfragen und Quellen behandeln →

Was das für die Praxis heißt

Für den Alltag folgt daraus weniger Alarm als Augenmaß. Erstens: Welche Modell-Variante man nutzt, bestimmt, was möglich ist – Ablehnungen oder Fallbacks sind oft Safeguards, kein Defekt. Zweitens: Sicherheits- und Leistungsangaben aus Anbieter-Quellen sind ein Anfang, kein Beweis; für Entscheidungen zählen unabhängige Messungen und der eigene Test im konkreten Anwendungsfall.

Drittens lohnt ein nüchterner Blick auf den Datenschutz, denn die Regeln unterscheiden sich nach Tarif: Bezahlte API- und Enterprise-Zugänge von OpenAI, Anthropic und Google trainieren standardmäßig nicht auf deinen Eingaben; die kostenlosen Consumer-Tarife tun das in der Regel mit Opt-out (abschaltbar). Eine Nuance bei Anthropic: Für ein Safety-Review geflaggte Chats können unabhängig vom Opt-out genutzt werden, und eine Opt-in-Aufbewahrung reicht bis zu fünf Jahre. Wer mit vertraulichen Daten arbeitet, prüft also die aktuelle Tarif-Policy, statt sie vorauszusetzen.

Und schließlich bleibt der Mensch in der Verantwortung: Gerade interne Systeme mit Zugriff auf echte Daten brauchen klare Grenzen statt blinden Vertrauens in das Modell.

API / Enterprise: trainiert by default NICHT (OpenAI · Anthropic · Google)
Consumer-Free: trainiert mit Opt-out (abschaltbar)
Anthropic-Ausnahme: Safety-geflaggte Chats trotz Opt-out · Opt-in-Retention bis 5 Jahre

Datenschutz & Vertraulichkeit im Recht-Artikel →Sicherheit bei Coding-Agenten →

Aktuelle Depeschen

1.072 Sicherheitsfehler in zwei Chrome-Versionen – mehr als in den 23 davor zusammen →58 Dollar gegen 14.200: FAR.AI misst erstmals, was ein Jailbreak je Frontier-Modell kostet →Anthropic durchsucht 141.006 Evaluierungsläufe und findet drei Fälle, in denen Claude echte Firmen angriff →IBMs Datenpannen-Bilanz 2026: jede vierte Attacke KI-gestützt, 92 % der Betroffenen ohne Zugriffskontrolle für KI →