DepescheModelle3. Juni 2026

Gemma 4 12B: Googles multimodales Modell läuft lokal auf dem Laptop

Google DeepMind hat Gemma 4 12B veröffentlicht – ein offenes, multimodales Modell mit 12 Mrd. Parametern, das Text, Bild und Audio verarbeitet und klein genug ist, um lokal auf Laptops mit 16 GB RAM zu laufen. Eine „encoder-freie“ Architektur verzichtet auf separate Bild- und Audio-Encoder.

Aussagen gegen die Quellen geprüft · 9. Juli 2026

Gemma 4 12B verarbeitet Text, Bilder und Audio und ist laut Google DeepMind das erste mittelgroße Gemma-Modell mit nativer Audio-Eingabe. Statt eigener Encoder für Bild und Ton speist eine „encoder-freie“ Architektur die Daten direkt ins Sprachmodell: Für Bilder genügt ein leichtgewichtiges Embedding (eine einzige Matrixmultiplikation), Audio wird direkt in denselben Vektorraum wie Text- projiziert. Das spart Latenz und Speicher.

Mit 12 Mrd. ist das Modell klein genug, um lokal auf Laptops mit 16 GB RAM zu laufen. Die Gewichte stehen unter Apache-2.0-Lizenz offen bereit – unter anderem über , Kaggle, LM Studio, Ollama und Google AI Edge.

Google gibt an, das Modell erreiche auf gängigen Benchmarks annähernd die Leistung des größeren 26-Mrd.-Modells, bei weniger als der Hälfte des Speicherbedarfs. Konkrete Benchmark-Werte nennt der Blogbeitrag nicht; die Angabe stammt vom Anbieter und ist unabhängig noch nicht bestätigt.

Ergänzung: Über Google AI Edge lässt sich Gemma 4 12B inzwischen praktisch lokal nutzen (zunächst macOS). Die Gallery-App dient als lokale Coding-Umgebung für Datenanalyse, die App „Eloquent“ bietet Sprachdiktat samt „Voice Edit“ (etwa „strukturiere diese Notizen zu einer Zusammenfassung um“), und das LiteRT-LM-CLI stellt per neuem `serve`-Befehl einen lokalen, zu gängigen Frameworks kompatiblen Endpunkt bereit – alles on-device, ohne Cloud.

Aktualisiert am 16. Juni 2026.