DepescheForschung10. Juni 2026

DiffusionGemma: Google testet Text per Diffusion statt Token für Token

Google hat mit DiffusionGemma ein experimentelles offenes Modell veröffentlicht, das Text nicht mehr Token für Token erzeugt, sondern ganze Blöcke gleichzeitig – per Diffusion. Das Modell (26 Mrd. Parameter, Mixture-of-Experts) soll auf GPUs bis zu 4× schneller schreiben, allerdings bei geringerer Ausgabequalität als das reguläre Gemma 4.

Aussagen gegen die Quellen geprüft · 9. Juli 2026

DiffusionGemma erzeugt Text nicht sequenziell, sondern entwirft – ähnlich wie Bild-Diffusionsmodelle – einen kompletten Absatz (bis zu 256 ) auf einmal: Es startet mit zufälligen Platzhalter-Token und verfeinert sie in mehreren Durchläufen, bis der Text steht. Autoregressive Modelle hängen dagegen ein Token nach dem anderen an.

Google nennt für GPUs bis zu 4× höheres Tempo: über 1000 Token pro Sekunde auf einer einzelnen NVIDIA H100, über 700 Token pro Sekunde auf einer NVIDIA GeForce RTX 5090. Der Vorteil greift vor allem bei lokaler Nutzung mit wenigen gleichzeitigen Anfragen; in Cloud-Szenarien mit hoher Last fällt er laut Google geringer aus.

Das Modell baut auf der Gemma-4-Familie auf und steht unter Apache-2.0-Lizenz mit herunterladbaren Gewichten auf Hugging Face bereit. Google kennzeichnet es ausdrücklich als experimentell: Die Ausgabequalität liege unter der des regulären Gemma 4 – für maximale Qualität empfiehlt das Unternehmen weiterhin das Standardmodell.

Ergänzung: Ein Developer Guide nennt weitere Details. DiffusionGemma ist ein -Modell mit 26 Mrd. , von denen je schritt nur rund 3,8 Mrd. aktiv sind; es passt damit in 18 GB VRAM. Dank bidirektionaler Aufmerksamkeit liest das Modell ganze Blöcke gleichzeitig und kann frühere Fehler nachträglich korrigieren, indem es einzelne Token erneut „verrauscht“ und ersetzt – etwas, das autoregressive Modelle so nicht können.

Aktualisiert am 16. Juni 2026.