← Wissen

Infrastruktur

Hardware, Compute & Energie

Hinter jedem Modell steht Rechenleistung – und die hat physische Grenzen, Kosten und einen Energiehunger. Dieser Artikel ordnet die Größenordnungen ein: was Training gegenüber Inferenz verbraucht, wie schnell der Rechenaufwand wächst, welche Chips das Feld bestimmen und was jenseits der GPU erforscht wird.

  • 2 Min. Lesezeit
  • 5 Abschnitte
  • 4 Quellen

Wo der Strom hingeht: Training vs. Inferenz

Das spektakuläre Training eines Modells ist ein einmaliger Kraftakt – die laufenden Kosten entstehen aber woanders. Weil ein breit genutztes Modell millionenfach Anfragen beantwortet, macht die Inferenz über die Lebenszeit den Großteil des Rechenaufwands aus; in der Branche kursiert die Faustregel „bis zu 90 %“.

Das verschiebt die Optimierungs-Perspektive: Nicht das einmalige Training, sondern jede einzelne Antwort zählt. Genau deshalb investieren Anbieter so viel in effizientere Inferenz – kleinere Modelle, Quantisierung, schnellere Decoding-Verfahren.

Inferenz-Anteil (Lebenszeit)
Faustregel: bis ~90 %

Merksatz Training ist der einmalige Knall, Inferenz der Dauerlauf. Über die Lebenszeit kostet die Nutzung mehr als das Training.

Was ein Frontier-Training verbraucht

Die Energiemengen sind beträchtlich, aber oft missverstanden. Das Training von GPT-4 wird auf grob 50 Gigawattstunden geschätzt – etwa der Stromverbrauch San Franciscos über drei Tage; Epoch AI beziffert den GPT-4o-Lauf mit rund 20–25 Megawatt über etwa drei Monate.

Das sind Schätzungen, keine Exaktwerte – die Anbieter veröffentlichen selten genaue Zahlen. Wichtig ist die Einordnung: Ein einzelnes Training ist energieintensiv, fällt aber gegenüber dem aufsummierten Dauerbetrieb (Inferenz) vieler Modelle über Jahre zunehmend weniger ins Gewicht.

GPT-4-Training (Schätzung)
~ 50 GWh
GPT-4o-Lauf (Epoch AI)
~ 20–25 MW über ~3 Monate

Compute wächst 4–5× pro Jahr

Der für Frontier-Modelle aufgewendete Trainings-Compute wächst seit etwa 2010 um das Vier- bis Fünffache pro Jahr – deutlich schneller als Moores Gesetz, das eine Verdopplung etwa alle zwei Jahre beschreibt. Epoch AI nennt für „notable“ Modelle rund 4,1×, für Frontier-Modelle etwa 5,3× pro Jahr (Stand Mai 2024).

Dieses Wachstum ist ein Haupttreiber der jüngsten Fähigkeitssprünge – und zugleich der Grund für den enormen Kapital- und Energiebedarf der Branche. Es lässt sich nicht beliebig fortschreiben: Strom, Chips und Geld setzen reale Grenzen.

Trainings-Compute
~ 4–5× / Jahr (schneller als Moore)

Merksatz Der Rechenaufwand der Spitzenmodelle vervielfacht sich jährlich – das treibt sowohl die Fortschritte als auch den Energie- und Kapitalhunger.

GPUs, TPUs & Spezialchips

Den Markt dominieren GPUs, allen voran von Nvidia – wegen ihrer Verfügbarkeit, Flexibilität und vor allem des reifen CUDA-Software-Ökosystems, das sich kaum kurzfristig nachbauen lässt. TPUs sind Googles maßgeschneiderte ASICs für Tensor- und Matrix-Operationen, praktisch nur über die Google Cloud nutzbar.

Daneben entsteht eine Welle spezialisierter Inferenz-Chips, die GPUs bei der reinen Antwort-Erzeugung in Tempo oder Energieeffizienz schlagen wollen. Solche Hersteller-Versprechen sind mit Vorsicht zu lesen: Bis unabhängige Messungen vorliegen, bleiben Spitzenwerte Marketing.

Training / Inferenz
GPUs dominant (Nvidia / CUDA)
Googles ASIC
TPU (nur via Google Cloud)

Aktuelles zu Chips & Branche →

Jenseits der GPU: neuromorphe Chips & Memristor

Ein Forschungszweig orientiert sich am Gehirn, das mit rund 20 Watt auskommt. Neuromorphe Chips sparen Energie, indem sie Speicher und Rechenwerk zusammenfallen lassen (In-Memory-Computing) – der teure Datentransport zwischen beiden entfällt. Schlüsselbauelement ist der Memristor, 1971 von Leon Chua postuliert und 2008 bei HP Labs realisiert: ein Bauteil, das speichern und rechnen vereint, ähnlich einer Synapse.

Bislang ist das Forschung und Nische, kein Ersatz für die GPU-getriebene Frontier-KI. Aber es zeigt, wo nach Effizienz gesucht wird, wenn das schiere Hochskalieren von Strom und Chips an Grenzen stößt.

Merksatz Das Gehirn rechnet mit ~20 Watt. Neuromorphe Ansätze wollen dem nahekommen, indem Speicher und Rechnen verschmelzen – noch Forschung, kein GPU-Ersatz.