Wofür · Entscheidungshilfe

Lokal & Self-Hosting

Offline/On-Device, Datenhoheit, eigene Infrastruktur. Hier die kuratierten Empfehlungen – Modelle und Werkzeuge.

Empfohlene Modelle

Reihenfolge: zuerst unsere kuratierte Einstufung ( Spitze zuerst, dann solide, situativ, überholt), bei Gleichstand nach dem unabhängigen AA Intelligence-Index. Der Balken zeigt diesen Wert je Modell (länger = besser); markiert den besten Wert der Liste – er steht ggf. nicht oben, weil die Einstufung zuerst zählt.

Z.ai · open-weight

GLM-5.2

Open-Weight Agentic-Coding-Flaggschiff (MIT)

Z.ais neues vollständig offenes Flaggschiff (MIT): MoE wie GLM-5/5.1, jetzt mit nutzbarem 1-Mio.-Token-Kontext und neuer „max“-Reasoning-Stufe. Im AA Intelligence Index 51 / Coding 69 das stärkste Open-Weight-Modell des Katalogs und nahe an den proprietären Spitzen – frei self-hostbar, auf lange agentische Coding-Horizonte ausgelegt.

Intelligenz51

DeepSeek · open-weight

DeepSeek-V4-Pro

Open-Weight-Preis-Leistung

Der Preis-Leistungs-Sieger unter den offenen Gewichten: sehr starkes Coding (59) und Agentic (67) seiner Preisklasse, dabei mit Abstand am günstigsten und selbst hostbar. Erste Wahl, wo Kosten, Datenhoheit oder lange Generierungen zählen – allerdings reine Text-Modalität.

Intelligenz44

MiniMax · open-weight

MiniMax-M3

Open-Weight Allzweck (1-Mio.-Kontext)

Open-Weight-Flaggschiff mit 1-Mio.-Token-Kontext und nativer Multimodalität (Text/Bild/Video-Eingabe) zum Kampfpreis ($0,30 / $1,20). Im AA Intelligence Index 44 / Coding 59 – starke, günstige Allzweck-/Coding-Wahl fürs Self-Hosting, wenn keine absolute Spitzenqualität nötig ist.

Intelligenz44

Moonshot AI · open-weight

Kimi K2.6

Open-Weight Agenten-/Coding-Schwergewicht

Open-Weight-MoE mit 1 Bio. Parametern (32 Mrd. aktiv), stark bei Long-Horizon-Coding und Agenten-Schwärmen. Im AA Intelligence Index 43 / Coding 62 (Coding führt) – eine der stärksten offenen Coding-/Agenten-Optionen, multimodal mit 256-K-Kontext.

Intelligenz43

Tencent · open-weight

Hy3

Open-Weight Preis-Leistungs-Spitze (Apache 2.0)

Tencents Open-Weight-MoE unter voller Apache-2.0-Lizenz: 295 Mrd. Parameter, davon nur 21 Mrd. aktiv (192 Experten, Top-8-Routing). Im AA Intelligence Index 41 / Coding 59 – nicht die offene Spitze (dort steht GLM-5.2 mit 51/69), aber mit $0,14 / $0,58 je Mio. Token die mit Abstand **günstigste** Option dieser Klasse: gleiche Coding-Leistung wie DeepSeek V4 Pro zum Drittel des Preises.

Intelligenz41

Z.ai · open-weight

GLM-5.1

Open-Weight Agentic-Coding (MIT)

Vollständig offenes Flaggschiff (MIT) für agentisches Coding: MoE mit 744 Mrd. Gesamt-/40 Mrd. aktiven Parametern, 200-K-Kontext. Im AA Intelligence Index 40 / Coding 56 – solide, frei self-hostbare Coding-/Agenten-Wahl; reines Text-Modell (Vision liegt im separaten GLM-5V).

Intelligenz40

Mistral AI · open-weight

Mistral Large 3

Open-Weight für EU/Souverän

Günstigstes Flaggschiff ($0,50 / $1,50) und Apache-2.0-offen – damit self-hosted und für souveräne EU-Deployments geeignet. Im AA Intelligence Index 16 (AA-Schätzung, vollständige unabhängige Eval ausstehend), AA Coding 20 – solide statt Spitze.

Intelligenz16

Cohere · proprietär

Command A+

Enterprise & Souveränität

Auf souveräne/Enterprise-Deployments zugeschnitten (läuft effizient auf 1× B200 oder 2× H100), mit Vision und mehrsprachiger Stärke. Im unabhängigen AA Intelligence Index 23 (AA Coding 28); kein öffentlicher Token-Preis – Einordnung über AA-Indizes und die Anbieter-Spezifikation.

Intelligenz23

Google · open-weight

Gemma 4 12B

Lokal & On-Device

Nicht für Spitzenleistung gebaut, sondern für lokalen/Edge-Betrieb: läuft auf Consumer-Laptops, multimodal und Apache-2.0-offen. Empfehlung dort, wo Offline-Betrieb, Datenschutz oder Hardware-Limits wichtiger sind als Benchmark-Spitzen.

Intelligenz22

Meta · open-weight

Llama 4 Maverick

Kontext-Spezialist

Mit bis zu 10 Mio. Token das größte Kontextfenster im Katalog – aber der niedrigste Human-Präferenz-Elo (1327). Lohnt vor allem für extrem lange Kontexte und Self-Hosting, weniger für Spitzen-Antwortqualität.

Intelligenz14

OpenBMB · open-weight

MiniCPM5-1B

Kognitiver Kern fürs Gerät

Nicht auf Benchmark-Spitzen gebaut, sondern auf die Idee des „kognitiven Kerns“: ein 1-Mrd.-Parameter-Modell, das lokal auf Consumer-Hardware – bis hin zum Smartphone oder im Browser – laufen soll und Reasoning plus Tool-Use behält, statt Enzyklopädie-Wissen in den Gewichten zu horten. Apache-2.0-offen, mit dem gesamten Trainings-Rezept. Empfehlung dort, wo On-Device-/Offline-Betrieb und ein winziger Footprint wichtiger sind als absolute Leistung.

Intelligenz: kein Vergleichswert

DeepReinforce · open-weight

Ornith 1.0

Selbst-gerüstetes Open-Source-Agentic-Coding (MIT)

DeepReinforces neue offene Coding-Familie (9B/31B Dense, 35B/397B MoE, MIT), post-trainiert auf Gemma 4 und Qwen 3.5. Kernidee: Das Modell lernt nicht nur Code, sondern sein eigenes RL-Scaffold (Agenten-Harness) selbst. Anbieter-Benchmarks setzen das 397B-Flaggschiff nahe an die proprietäre Spitze (SWE-bench Pro Verified 82,4 %) – unabhängig aber noch nicht gemessen. Interessant fürs Self-Hosting und agentisches Coding; für ein belastbares Urteil fehlen unabhängige Zahlen.

Intelligenz: kein Vergleichswert

Passende Werkzeuge

Alle Werkzeuge →

PlattformFreemium

Hugging Face

Zentrale Plattform der ML-Community für Modelle, Datensätze und Demos.

Lokaler RunnerOpen Source

Ollama

Offene Modelle einfach lokal auf dem eigenen Rechner ausführen.

Lokaler RunnerKostenlos

LM Studio

Offene Modelle lokal ausführen – mit grafischer Oberfläche, Modell-Browser und lokalem OpenAI-kompatiblem Server.

Coding-Agent

LM Studio Bionic

LM Studio

Agentische App von LM Studio, die offene Modelle lokal & kostenlos zu echten Agenten macht – Dateien analysieren, Präsentationen und Code bauen. Positioniert als lokale, datenhoheitswahrende Alternative zu ChatGPT-Codex bzw. Claude Cowork.

Coding-AgentOpen Source

Hermes Agent

Nous Research

Quelloffener (MIT), lokal laufender autonomer Agent von Nous Research, der aus vergangenen Läufen eigene „Skills“ lernt – modellunabhängig (Anthropic, MiniMax, OpenRouter u. a.).

Dokument-KI & OCRKostenpflichtig

Mistral OCR 4

Mistral AI

Dokument-Verstehen statt bloßer Texterkennung: liest PDFs, Office-Dateien und Scans in 170 Sprachen und gibt strukturierte Daten mit Bounding-Boxes, Block-Typen und Konfidenzwerten zurück – als API oder selbst gehostet im eigenen Container.

Lokal & Self-HostingOpen Source

colibrì

Vincenzo Fornaro („JustVugg“), quelloffen

Inferenz-Engine in reinem C ohne Abhängigkeiten, die ein 744-Mrd.-MoE-Modell (GLM-5.2) auf Consumer-Hardware lauffähig macht: Die dichten Anteile bleiben im RAM (~9,9 GB in int4), die Experten werden bedarfsweise von der SSD gestreamt. Läuft – langsam, aber korrekt – auf Maschinen, für die das Modell eigentlich viel zu groß ist.