Infrastruktur
Hardware, Compute & Energie
Hinter jedem Modell steht Rechenleistung – und die hat physische Grenzen, Kosten und einen Energiehunger. Dieser Artikel ordnet die Größenordnungen ein: was Training gegenüber Inferenz verbraucht, wie schnell der Rechenaufwand wächst, welche Chips das Feld bestimmen und was jenseits der GPU erforscht wird.
Wo der Strom hingeht: Training vs. Inferenz
Das spektakuläre Training eines Modells ist ein einmaliger Kraftakt – die laufenden Kosten entstehen aber woanders. Weil ein breit genutztes Modell millionenfach Anfragen beantwortet, macht die Inferenz über die Lebenszeit den Großteil des Rechenaufwands aus; in der Branche kursiert die Faustregel „bis zu 90 %“.
Das verschiebt die Optimierungs-Perspektive: Nicht das einmalige Training, sondern jede einzelne Antwort zählt. Genau deshalb investieren Anbieter so viel in effizientere Inferenz – kleinere Modelle, Quantisierung, schnellere Decoding-Verfahren.
- Inferenz-Anteil (Lebenszeit)
- Faustregel: bis ~90 %
Merksatz Training ist der einmalige Knall, Inferenz der Dauerlauf. Über die Lebenszeit kostet die Nutzung mehr als das Training.
Was ein Frontier-Training verbraucht
Die Energiemengen sind beträchtlich, aber oft missverstanden. Das Training von GPT-4 wird auf grob 50 Gigawattstunden geschätzt – etwa der Stromverbrauch San Franciscos über drei Tage; Epoch AI beziffert den GPT-4o-Lauf mit rund 20–25 Megawatt über etwa drei Monate.
Das sind Schätzungen, keine Exaktwerte – die Anbieter veröffentlichen selten genaue Zahlen. Wichtig ist die Einordnung: Ein einzelnes Training ist energieintensiv, fällt aber gegenüber dem aufsummierten Dauerbetrieb (Inferenz) vieler Modelle über Jahre zunehmend weniger ins Gewicht.
- GPT-4-Training (Schätzung)
- ~ 50 GWh
- GPT-4o-Lauf (Epoch AI)
- ~ 20–25 MW über ~3 Monate
Compute wächst 4–5× pro Jahr
Der für Frontier-Modelle aufgewendete Trainings-Compute wächst seit etwa 2010 um das Vier- bis Fünffache pro Jahr – deutlich schneller als Moores Gesetz, das eine Verdopplung etwa alle zwei Jahre beschreibt. Epoch AI nennt für „notable“ Modelle rund 4,1×, für Frontier-Modelle etwa 5,3× pro Jahr (Stand Mai 2024).
Dieses Wachstum ist ein Haupttreiber der jüngsten Fähigkeitssprünge – und zugleich der Grund für den enormen Kapital- und Energiebedarf der Branche. Es lässt sich nicht beliebig fortschreiben: Strom, Chips und Geld setzen reale Grenzen.
- Trainings-Compute
- ~ 4–5× / Jahr (schneller als Moore)
Merksatz Der Rechenaufwand der Spitzenmodelle vervielfacht sich jährlich – das treibt sowohl die Fortschritte als auch den Energie- und Kapitalhunger.
GPUs, TPUs & Spezialchips
Den Markt dominieren GPUs, allen voran von Nvidia – wegen ihrer Verfügbarkeit, Flexibilität und vor allem des reifen CUDA-Software-Ökosystems, das sich kaum kurzfristig nachbauen lässt. TPUs sind Googles maßgeschneiderte ASICs für Tensor- und Matrix-Operationen, praktisch nur über die Google Cloud nutzbar.
Daneben entsteht eine Welle spezialisierter Inferenz-Chips, die GPUs bei der reinen Antwort-Erzeugung in Tempo oder Energieeffizienz schlagen wollen. Solche Hersteller-Versprechen sind mit Vorsicht zu lesen: Bis unabhängige Messungen vorliegen, bleiben Spitzenwerte Marketing.
- Training / Inferenz
- GPUs dominant (Nvidia / CUDA)
- Googles ASIC
- TPU (nur via Google Cloud)
Jenseits der GPU: neuromorphe Chips & Memristor
Ein Forschungszweig orientiert sich am Gehirn, das mit rund 20 Watt auskommt. Neuromorphe Chips sparen Energie, indem sie Speicher und Rechenwerk zusammenfallen lassen (In-Memory-Computing) – der teure Datentransport zwischen beiden entfällt. Schlüsselbauelement ist der Memristor, 1971 von Leon Chua postuliert und 2008 bei HP Labs realisiert: ein Bauteil, das speichern und rechnen vereint, ähnlich einer Synapse.
Bislang ist das Forschung und Nische, kein Ersatz für die GPU-getriebene Frontier-KI. Aber es zeigt, wo nach Effizienz gesucht wird, wenn das schiere Hochskalieren von Strom und Chips an Grenzen stößt.
Merksatz Das Gehirn rechnet mit ~20 Watt. Neuromorphe Ansätze wollen dem nahekommen, indem Speicher und Rechnen verschmelzen – noch Forschung, kein GPU-Ersatz.