Google · Gemma

Gemma 4 12B

gemma-4-12b

TextBildAudio

SituativLokal & On-Device

Nicht für Spitzenleistung gebaut, sondern für lokalen/Edge-Betrieb: läuft auf Consumer-Laptops, und Apache-2.0-offen. Empfehlung dort, wo Offline-Betrieb, Datenschutz oder Hardware-Limits wichtiger sind als Benchmark-Spitzen.

lokale/Edge-KI
On-Device-Multimodalität
Self-Hosting auf kleiner Hardware

: 256 K
Preis (Input / Output): k. A. je 1 Mio. Token
: Jan 2025

Stärken

Offene Gewichte unter Apache-2.0-Lizenz (lokal/self-hosted)
Encoder-freie multimodale Architektur (Text, Bild, Audio) – läuft lokal auf Laptops mit 16 GB RAM
256-K-Token-Kontext, konfigurierbare Thinking-Modi, natives Function-Calling

Schwächen

Kein zentraler Token-Preis – Kosten je nach Hoster/eigener Infrastruktur
Erreicht laut Anbieter ein größeres 26-Mrd.--Modell nur annähernd (unabhängig nicht bestätigt)

Typische Einsatzfälle

lokale/Edge-KI
multimodale Aufgaben auf Consumer-Hardware
Self-Hosting

Leistung im Vergleich

Unabhängige Indizes (Artificial Analysis, 0–100), zwei kontaminationsarme Einzel-Benchmarks (Terminal-Bench, agentische Shell-Aufgaben; τ²-bench, Tool-Use-Verlässlichkeit über viele Läufe) und Human-Präferenz-Elo (LMArena). Die dunkle Markierung zeigt den Bestwert im Katalog – so wird der Abstand zur Spitze sichtbar.

Benchmarks im Detail

Kennzahlen aus zitierten Messungen – unabhängige Quellen sind ausgewiesen, Anbieterangaben entsprechend markiert. Werte sind nicht über Skalen hinweg vergleichbar. Wie man Benchmark-Zahlen liest →

Artificial Analysis Intelligence Index
22
(Reasoning)
unabhängigArtificial Analysis (API), abgerufen 2026-06-16
Artificial Analysis Coding Index
25
(Reasoning)
unabhängigArtificial Analysis (API), abgerufen 2026-06-16
τ²-bench (Tool-Use-Verlässlichkeit)
36 %
unabhängigArtificial Analysis (API), abgerufen 2026-06-16

Einordnung

Auf lokale/Edge-Nutzung ausgelegt statt auf Spitzenleistung: ~12 Mrd. , läuft laut Anbieter auf Consumer-Laptops mit 16 GB RAM (Anbieterangabe), Apache 2.0.
Encoder-frei multimodal (Text, Bild, Audio) bei 256-K-Kontext – deutlich kleiner als die Cloud-Flaggschiffe, dafür offline/on-device betreibbar.
Im unabhängigen 22 (-Variante), 25 – erwartungsgemäß unter den Cloud-Flaggschiffen, stark für seine Größenklasse.Beleg · Sekundärquelle

Aus der System-Card

Verdichtete Befunde aus der offiziellen des Anbieters (Primärquelle, ). Fähigkeitswerte sind Anbieterangaben – nicht unabhängig nachgemessen. Card-Stand 2026-06-10.

Fähigkeiten

Reasoning – Laut Card erreicht das 12B (instruction-tuned) 78,8 % auf GPQA Diamond und 77,2 % auf MMLU Pro.
Coding – Laut Card 72,0 % auf LiveCodeBench v6 und eine Codeforces-Elo von 1659 – mit nativem für agentische Workflows.
Mathematik – Laut Card 77,5 % auf AIME 2026 (ohne Tools), deutlich über Gemma 3 27B (20,8 %).
Multimodal & Kontext – Das 12B verarbeitet Text, Bild und – als einziges der Mittelklasse – nativ Audio, mit bis zu 256K Kontext (69,1 % auf MMMU Pro).

Verhalten & Sicherheit

Safety-Evals – Laut Card – ohne Safety-Filter getestet – „minimal policy violations“ über alle Größen, mit deutlichen Fortschritten gegenüber Gemma 3/3n bei zugleich niedrigen unbegründeten Verweigerungen.
Safety-Politiken – Geprüft wird gegen Googles AI-Prinzipien auf CSAM/Kindesmissbrauch, gefährliche Inhalte (z. B. Suizid-Förderung), sexuell explizite Inhalte, Hassrede und Belästigung.
Datenfilterung – Vor dem Training wurde CSAM-Material mehrstufig herausgefiltert sowie bestimmte personenbezogene und sensible Daten automatisiert entfernt.
Lizenz – Die Card führt im Kopf „Apache 2.0“ als Lizenz – eine echte Open-Source-Lizenz; auf eine separate Prohibited-Use-Policy wird nur über die Doku-Navigation verwiesen.
Limitierungen – Als bekannte Grenzen nennt die Card Trainingsdaten-Bias/-Lücken, mögliche veraltete oder faktisch falsche Aussagen, Schwächen bei Nuancen/Sarkasmus und fehlenden Common Sense.

Die Card deckt fünf Größen ab (E2B, E4B, 12B, 26B A4B, 31B); die hier genannten Werte beziehen sich auf die instruction-tuned 12B-Variante („12B Unified“, 11,95 Mrd. Parameter).

Google – Gemma 4 Model Card· Primärquelle, abgerufen 2026-06-16

Stimmen aus der Öffentlichkeit

Subjektive Einschätzungen Dritter – keine belegten Fakten, jeweils verlinkt.

positivWird als neues, vielversprechendes lokales Open-Weight-Modell von Google fürs Heim-Setup gehandelt – „soll auch sehr gut sein“, eigene Tests stehen aber noch aus.c’t 3003 (YouTube) · Community
neutralDie Gemma-Familie dient als VLM-Backbone: In PaliGemma (genutzt u. a. in Physical Intelligence π0) wird Gemma mit dem SigLIP-Bildencoder zu einem multimodalen System kombiniert – dort ältere Gemma-Generationen, nicht zwingend 4·12B.Welch Labs (YouTube) · Community
positivLaut Googles eigenem „Translate Gemma“-Bericht übertrifft das aufgabenspezifisch feinjustierte 12B-Modell die 27B-Basisvariante – Anbieter-Eigenangabe (Cherry-Picking-Vorbehalt), keine bekannte unabhängige Replikation.1littlecoder (YouTube) · Community
gemischtÜbersetzung gelingt überzeugend, doch die Bild-zu-Text-Funktion versagt im getesteten 4B-Modell und halluziniert stark – ob größere Varianten besser sind, bleibt offen.1littlecoder (YouTube) · Community

ℹ️ 11,95 Mrd. Parameter, 48 Layer, encoder-frei (Bild/Audio direkt in den Embedding-Raum projiziert). Apache 2.0 (offiziell, nicht die alte Gemma-Lizenz). Audio bis 30 s, Video bis 60 Frames. Verfügbar via , Kaggle, LM Studio, Ollama, Google AI Edge.