← Alle Depeschen

Forschungneu

DiffusionGemma: Google testet Text per Diffusion statt Token für Token

Google hat mit DiffusionGemma ein experimentelles offenes Modell veröffentlicht, das Text nicht mehr Token für Token erzeugt, sondern ganze Blöcke gleichzeitig – per Diffusion. Das Modell (26 Mrd. Parameter, Mixture-of-Experts) soll auf GPUs bis zu 4× schneller schreiben, allerdings bei geringerer Ausgabequalität als das reguläre Gemma 4.

DiffusionGemma erzeugt Text nicht sequenziell, sondern entwirft – ähnlich wie Bild-Diffusionsmodelle – einen kompletten Absatz (bis zu 256 Token) auf einmal: Es startet mit zufälligen Platzhalter-Token und verfeinert sie in mehreren Durchläufen, bis der Text steht. Autoregressive Modelle hängen dagegen ein Token nach dem anderen an.

Google nennt für GPUs bis zu 4× höheres Tempo: über 1000 Token pro Sekunde auf einer einzelnen NVIDIA H100, über 700 Token pro Sekunde auf einer NVIDIA GeForce RTX 5090. Der Vorteil greift vor allem bei lokaler Nutzung mit wenigen gleichzeitigen Anfragen; in Cloud-Szenarien mit hoher Last fällt er laut Google geringer aus.

Das Modell baut auf der Gemma-4-Familie auf und steht unter Apache-2.0-Lizenz mit herunterladbaren Gewichten auf Hugging Face bereit. Google kennzeichnet es ausdrücklich als experimentell: Die Ausgabequalität liege unter der des regulären Gemma 4 – für maximale Qualität empfiehlt das Unternehmen weiterhin das Standardmodell.