Modelle

Die KI-Modell-Landschaft: wer baut was

Die Zahl der Sprachmodelle ist unübersichtlich geworden, und im Monatstakt kommen neue dazu. Diese Seite ordnet die Landschaft: welche Anbieter und Familien es gibt, was „proprietär“ von „open-weight“ unterscheidet und wie man trotz Hype zur richtigen Wahl für die eigene Aufgabe kommt.

2 Min. Lesezeit
4 Abschnitte
4 Quellen
Stand: 16. Juni 2026

Die großen Familien

Den Markt prägt eine Handvoll westlicher Anbieter mit Spitzenmodellen: Anthropic (Claude), OpenAI (GPT), Google (Gemini) und xAI (Grok). Daneben steht ein lebendiges -Lager, dessen Spitze derzeit überwiegend aus chinesischen Laboren kommt – DeepSeek, Moonshot (Kimi), Z.ai (GLM), Alibaba (Qwen) und MiniMax – ergänzt um Meta (Llama), das französische Mistral und Googles offenes Gemma.

Eine „Familie“ umfasst dabei meist mehrere Größen und Generationen: ein großes Flaggschiff, schnellere und günstigere Geschwister sowie nummerierte Versionen, die sich oft schon nach Monaten ablösen. Welches Modell wann erschienen ist und was es kostet, steht – mit Beleg – im Katalog.

Alle Modelle im Katalog vergleichen →

Proprietär vs. open-weight

Proprietäre Modelle laufen nur über die API oder App des Anbieters. Man bekommt Spitzenleistung und null eigene Infrastruktur, gibt dafür aber Daten und Kontrolle aus der Hand und zahlt pro Token. Open-weight-Modelle stellen ihre Gewichte zum Download bereit – sie lassen sich lokal oder auf eigener Infrastruktur betreiben, was bei Datenschutz, Kostenkontrolle und Unabhängigkeit punktet.

Wichtige Abgrenzung: „open-weight“ ist nicht dasselbe wie „open source“. Offen sind meist nur die fertigen Gewichte, nicht die Trainingsdaten und das Trainingsverfahren – das Modell ist also nutz-, aber nicht reproduzierbar, und manche Lizenzen sind rechtlich noch ungetestet.

Wie groß ist der Leistungsabstand? Er ist ein bewegliches Ziel. Als datierter Snapshot (Mitte 2026, Artificial-Analysis-Index): Die open-weight-Spitze liegt rund zehn Indexpunkte hinter der proprietären – aber der Abstand ist über das letzte Jahr deutlich geschrumpft. Für viele Alltagsaufgaben ist die Lücke längst klein genug, dass die Wahl eher an Datenschutz, Kosten und Betrieb hängt als an reiner Leistung.

Proprietär: nur per API/App · Spitzenleistung, kein eigener Betrieb · Pay-per-Token · Daten extern
Open-weight: Gewichte herunterladbar · lokal/self-host möglich · Datenschutz & Kontrolle · Betriebsaufwand
open-weight ≠ open source: meist nur Gewichte offen, nicht Trainingsdaten/-code → nutzbar, nicht reproduzierbar

MerksatzProprietär kauft Leistung ohne Betrieb; open-weight kauft Kontrolle mit Betrieb. Der Leistungsabstand schrumpft – die Entscheidung fällt zunehmend über Datenschutz und Kosten.

Open-weight-Modelle selbst betreiben →Was Recht & Datenschutz dazu sagen →

Es gibt kein „bestes“ Modell

Modelle sind in ihren Fähigkeiten ungleichmäßig – ein Modell, das eine Sache brillant kann, kann bei der nächsten überraschend schwächeln. Eine einzelne Rangliste, die ein „bestes“ Modell krönt, führt deshalb in die Irre. Die nützlichere Frage lautet immer: am besten wofür?

Das zeigt sich schon daran, dass verschiedene seriöse Messungen sich widersprechen. Auf den unabhängigen Fähigkeits-Indizes (Artificial Analysis) liegen andere Modelle vorn als beim menschlichen Geschmack (, eine Blind-Abstimmung echter Nutzer). Ein günstiges, schnelles Modell kann beim Nutzer-Geschmack mit einem viel teureren gleichziehen – und beim Coding trotzdem zurückfallen.

MerksatzFrag nicht „welches Modell ist das beste“, sondern „welches für meine Aufgabe“. Benchmark-Spitze und Nutzer-Präferenz sind nicht dasselbe.

Benchmarks und Ranglisten richtig lesen →Empfehlungen nach Aufgabe →

Tempo der Landschaft – und wie man wählt

Die Landschaft ist intransparenter denn je: bevorzugter Frühzugang für Lobredner, geleakte Benchmarks, firmeneigene Vergleichszahlen. Der quellenkritische Analyse-Kanal AI Explained bringt es auf den Punkt – die Szene zu ignorieren sei für Profis teurer denn je; der praktische Rat laute, sich nicht an ein Modell zu ketten, sondern mehrere Top-Modelle parallel zu nutzen und an der eigenen Aufgabe zu testen.

Für die konkrete Wahl helfen wenige nüchterne Kriterien mehr als jede Schlagzeile: die Aufgabe (Coding, Schreiben, Agenten, Multimodales), das nötige , der Preis pro , die unterstützten Modalitäten und – oft unterschätzt – Lizenz und Datenschutz. Weil sich Versionen schnell ablösen, lohnt es sich, die Wahl regelmäßig zu überprüfen statt einmal festzulegen.

Auswahl-Kriterien: Aufgabe · Kontextfenster · Preis/Token · Modalitäten · Lizenz/Datenschutz · Verlässlichkeit
Praktiker-Rat: nicht an ein Modell ketten – mehrere parallel testen, regelmäßig neu prüfen

Preise und Kosten verstehen →Modelle nach Kennzahlen sortieren →

Aktuelle Depeschen

DeepSeek V4 Flash 0731: reines Post-Training hebt den AA-Index um zehn Punkte auf 50 – einen hinter GPT-5.6 Luna →OpenAI senkt GPT-5.6 Luna um 80 Prozent – und schreibt die Ersparnis dem eigenen Modell zu →New York Times: Washington neigt zu gezielten Sperren einzelner chinesischer Modelle – Anthropic und OpenAI werben hinter verschlossenen Türen dafür →AI Security Institute: Offene Gewichte holen bei Cyber-Fähigkeiten auf – nur noch vier bis sieben Monate Rückstand →