DepescheForschung16. Juni 2026

MLPerf Training v6.0: Skalierung bis 8192 GPUs

In der neuen MLPerf-Training-Runde v6.0 der MLCommons reichen Cloud-Anbieter erstmals Läufe mit bis zu 8192 GPUs ein. NVIDIAs Blackwell dominiert nach eigenen Angaben alle Disziplinen – ein DeepSeek-V3-Pretraining (671 Mrd. Parameter) in 2,02 Minuten –, AMDs Instinct holt mit hunderten GPUs auf.

Aussagen gegen die Quellen geprüft · 9. Juli 2026

MLPerf Training v6.0 ist die jüngste Ausgabe der von der MLCommons-Vereinigung gepflegten Trainings-Benchmarks. Auffällig in dieser Runde: Cloud-Anbieter reichen Läufe mit bis zu 8192 GPUs ein – die Skalierung verschiebt sich damit klar in Rechenzentrums-Größenordnung.

NVIDIA meldet für seine Blackwell-Plattform Bestwerte in allen Disziplinen, u. a. ein DeepSeek-V3-Pretraining (671 Mrd. , ) in 2,02 Minuten auf 8192 GPUs und Llama 3.1 405B in 7,07 Minuten. Die GB300-Generation liege je nach Workload rund 1,3- bis 1,6-fach vor GB200 – bei mehr Speicher und höherem Strombudget. (Spitzenwerte aus NVIDIAs eigener Einreichung; MLPerf-Ergebnisse werden von MLCommons geprüft.)

Bemerkenswert ist der Software-Anteil: Auf identischer GB300-Hardware stieg der DeepSeek-V3-Durchsatz binnen drei Monaten von 1298 auf 1648 TFLOPS pro GPU (rund 1,3-fach) – ein Gewinn allein aus optimiertem Stack, ohne Hardware-Wechsel.

Einordnung (ComputerBase): 19 Firmen nutzten NVIDIA-Lösungen für eigene Testwerte; AMDs Instinct-Beschleuniger treten mit hunderten GPUs an und holen auf, bleiben aber unter der Spitzen-Skalierung. MLPerf misst Trainingszeit auf festgelegten Aufgaben und ist damit aussagekräftiger als isolierte Hersteller-Benchmarks, deckt aber nur einen Ausschnitt realer Trainings-Workloads ab.