← Alle Depeschen

Modelle

Gemma 4 12B: Googles multimodales Modell läuft lokal auf dem Laptop

Google DeepMind hat Gemma 4 12B veröffentlicht – ein offenes, multimodales Modell mit 12 Mrd. Parametern, das Text, Bild und Audio verarbeitet und klein genug ist, um lokal auf Laptops mit 16 GB RAM zu laufen. Eine „encoder-freie“ Architektur verzichtet auf separate Bild- und Audio-Encoder.

Gemma 4 12B verarbeitet Text, Bilder und Audio und ist laut Google DeepMind das erste mittelgroße Gemma-Modell mit nativer Audio-Eingabe. Statt eigener Encoder für Bild und Ton speist eine „encoder-freie“ Architektur die Daten direkt ins Sprachmodell: Für Bilder genügt ein leichtgewichtiges Embedding (eine einzige Matrixmultiplikation), Audio wird direkt in denselben Vektorraum wie Text-Token projiziert. Das spart Latenz und Speicher.

Mit 12 Mrd. Parametern ist das Modell klein genug, um lokal auf Laptops mit 16 GB RAM zu laufen. Die Gewichte stehen unter Apache-2.0-Lizenz offen bereit – unter anderem über Hugging Face, Kaggle, LM Studio, Ollama und Google AI Edge.

Google gibt an, das Modell erreiche auf gängigen Benchmarks annähernd die Leistung des größeren 26-Mrd.-MoE-Modells, bei weniger als der Hälfte des Speicherbedarfs. Konkrete Benchmark-Werte nennt der Blogbeitrag nicht; die Angabe stammt vom Anbieter und ist unabhängig noch nicht bestätigt.