Infrastruktur

Hardware, Compute & Energie

Hinter jedem Modell steht Rechenleistung – und die hat physische Grenzen, Kosten und einen Energiehunger. Dieser Artikel ordnet die Größenordnungen ein: was Training gegenüber Inferenz verbraucht, wie schnell der Rechenaufwand wächst, welche Chips das Feld bestimmen und was jenseits der GPU erforscht wird.

7 Min. Lesezeit
7 Abschnitte
11 Quellen
Stand: 16. Juni 2026

Wo der Strom hingeht: Training vs. Inferenz

Das spektakuläre Training eines Modells ist ein einmaliger Kraftakt – die laufenden Kosten entstehen aber woanders. Weil ein breit genutztes Modell millionenfach Anfragen beantwortet, macht die Inferenz über die Lebenszeit den Großteil des Rechenaufwands aus; in der Branche kursiert die Faustregel „bis zu 90 %“.

Das verschiebt die Optimierungs-Perspektive: Nicht das einmalige Training, sondern jede einzelne Antwort zählt. Genau deshalb investieren Anbieter so viel in effizientere Inferenz – kleinere Modelle, , schnellere Decoding-Verfahren.

Inferenz-Anteil (Lebenszeit): Faustregel: bis ~90 %

MerksatzTraining ist der einmalige Knall, Inferenz der Dauerlauf. Über die Lebenszeit kostet die Nutzung mehr als das Training.

Was ein Frontier-Training verbraucht

Die Energiemengen sind beträchtlich, aber oft missverstanden. Das Training von GPT-4 wird auf grob 50 Gigawattstunden geschätzt – etwa der Stromverbrauch San Franciscos über drei Tage; Epoch AI beziffert Trainingsläufe der GPT-4o-Klasse mit rund 20–25 Megawatt über etwa drei Monate.

Das sind Schätzungen, keine Exaktwerte – die Anbieter veröffentlichen selten genaue Zahlen. Wichtig ist die Einordnung: Ein einzelnes Training ist energieintensiv, fällt aber gegenüber dem aufsummierten Dauerbetrieb (Inferenz) vieler Modelle über Jahre zunehmend weniger ins Gewicht.

GPT-4-Training (Schätzung): ~ 50 GWh
GPT-4o-Klasse (Epoch AI): ~ 20–25 MW über ~3 Monate

Compute wächst 4–5× pro Jahr

Der für Frontier-Modelle aufgewendete Trainings-Compute wächst seit etwa 2010 um das Vier- bis Fünffache pro Jahr – deutlich schneller als Moores Gesetz, das eine Verdopplung etwa alle zwei Jahre beschreibt. Epoch AI nennt für „notable“ Modelle rund 4,1×, für Frontier-Modelle etwa 5,3× pro Jahr (Stand Mai 2024).

Dieses Wachstum ist ein Haupttreiber der jüngsten Fähigkeitssprünge – und zugleich der Grund für den enormen Kapital- und Energiebedarf der Branche. Es lässt sich nicht beliebig fortschreiben: Strom, Chips und Geld setzen reale Grenzen. Wie nah diese Grenzen schon sind, macht eine Stimme aus der Industrie greifbar: Der quellenbewusste Analyse-Kanal AI Explained zitiert OpenAIs Greg Brockman mit der Diagnose, man trete in eine „Ära der Compute-Knappheit“ ein – Rate-Limits seien schon spürbar, und mehr Effizienz senke den Bedarf nicht, sondern erhöhe ihn (das Jevons-Paradox: billigere Tokens werden in größerer Menge verbraucht). Effizienzgewinne und Knappheit schließen sich also nicht aus, sie verstärken sich.

Bei den Endkunden kommt dieser Hunger inzwischen an: Der Technik-Kanal c’t 3003 berichtet als Computex-Augenzeuge, der Konsumer-PC-Markt sei nicht am Schrumpfen, sondern kollabiert – Komponentenhersteller wechseln zu KI-Rechenzentrums-Kunden, weil dort die Margen sind, und die daraus folgende RAM-Knappheit drücke Mittelklasse-Notebooks zurück auf knappe Speicherausstattungen. Das ist eine Markt-Beobachtung, keine harte Absatzzahl (ob der Boom etwa den Smartphone-Absatz halbiert, ist ausdrücklich strittig) – aber es erdet das abstrakte Compute-Wachstum: Wer 2026 ein günstiges Notebook kauft, spürt den Rechenzentrums-Boom im eigenen Warenkorb.

Trainings-Compute: ~ 4–5× / Jahr (schneller als Moore)

MerksatzDer Rechenaufwand der Spitzenmodelle vervielfacht sich jährlich – das treibt sowohl die Fortschritte als auch den Energie- und Kapitalhunger.

Aktuelles zum Hardware-Markt & Lieferketten →

GPUs, TPUs & Spezialchips

Den Markt dominieren GPUs, allen voran von Nvidia – wegen ihrer Verfügbarkeit, Flexibilität und vor allem des reifen CUDA-Software-Ökosystems, das sich kaum kurzfristig nachbauen lässt. Nvidia-Chef Jensen Huang bringt das im Gespräch mit Dwarkesh Patel auf den Punkt – als Eigendarstellung des GPU-Verkäufers entsprechend zu lesen: Der eigentliche Burggraben sei die freie Programmierbarkeit von CUDA. Erst wenn man neue Algorithmen frei erfinden könne (, hybride SSM/Attention-Architekturen), entstünden die 10×- bis 100×-Sprünge, die Moores Gesetz allein nicht liefere; fest verdrahtete Beschleuniger seien dafür zu starr. TPUs sind Googles maßgeschneiderte ASICs für Tensor- und Matrix-Operationen, praktisch nur über die Google Cloud nutzbar – schneller und sparsamer für ihre Spezialaufgabe, aber eben weniger frei programmierbar.

Dass solche Spezialchips anders gebaut sind, hat denselben physikalischen Grund wie der Inferenz-Engpass oben: Auf modernen KI-Beschleunigern entfällt der Großteil der Fläche auf Datenbewegung, nicht auf Rechenlogik – wer einen Chip auf einen engen Workload zuschneidet, kann die Verdrahtung sparsamer auslegen. Genau dort setzt eine Welle spezialisierter Inferenz-Chips an, die GPUs bei der reinen Antwort-Erzeugung in Tempo oder Energieeffizienz schlagen wollen. Der Entwickler-Kommentator Theo (t3.gg) gibt dieser Welle ein Gesicht: Für reine Inferenz seien Custom-Chips wie die von Cerebras oder Groq effizienter und könnten Nvidias Inferenz-Dominanz strukturell brechen. Das ist eine strittige Position, kein gemessener Vorsprung – konkrete Tempo-Vielfache kursieren, sind aber unabhängig nicht belegt, und Theo selbst hält Beteiligungen im Tooling-Umfeld. Generell gilt: Solche Hersteller-Versprechen sind mit Vorsicht zu lesen – bis unabhängige Messungen vorliegen, bleiben Spitzenwerte Marketing.

Training / Inferenz: GPUs dominant (Nvidia / CUDA)
Googles ASIC: TPU (nur via Google Cloud)
Nvidias Burggraben: CUDA-Programmierbarkeit (laut Nvidia-CEO – befangen)

Aktuelles zu Chips & Branche →

Warum Inferenz an der Speicher-Bandbreite hängt

Dass Inferenz über die Lebenszeit den Großteil der Rechenkosten ausmacht, ist die eine Hälfte der Geschichte – die andere ist das physikalische Warum. Der eigentliche Engpass bei langen Kontexten ist nicht die Rechenleistung, sondern die Speicher-Bandbreite: Der KV-Cache (der Zwischenspeicher, in dem das Modell die schon verarbeiteten Tokens für die nächste Vorhersage vorhält) muss bei jedem erzeugten Token erneut aus dem Speicher gelesen werden – und dieses Lesen lässt sich, anders als reine Rechenarbeit, weder über größere Batches noch über Pipeline-Parallelismus wegoptimieren.

Der Analyse-Kanal Dwarkesh Patel ordnet das in einem Gespräch mit einem Inferenz-Ingenieur (Reiner Pope, MatX) ein: Weil sich die Bandbreiten-Kosten so schlecht verteilen lassen, liege die ökonomisch sinnvolle Kontextlänge bei grob 100 000 bis 200 000 Token – der Balancepunkt zwischen Rechen- und Bandbreiten-Kosten; deutlich darüber werde es überproportional teuer. Das ist eine Engineering-Einordnung, keine harte Messzahl, aber sie erklärt, warum ein beworbenes Millionen-Token-Fenster und ein wirtschaftlich nutzbares Fenster zwei verschiedene Dinge sind.

Dieselbe Logik prägt den Chip selbst: Das zentrale Designproblem moderner KI-Beschleuniger sei nicht die Rechenlogik, sondern die Datenbewegung, so Dwarkesh Patel weiter – der Großteil der Chipfläche entfalle auf Register-Muxes und Verdrahtung, nicht auf die eigentlichen Recheneinheiten. Das Prinzip „Compute maximieren relativ zur Kommunikation“ ziehe sich vom Einzelchip bis zum ganzen Rechenzentrum.

Genau hier setzt das wichtigste reale Gegenmittel an. -Modelle wie DeepSeek-V4 erreichen Frontier-Nähe vor allem über Effizienz statt Größe: Eine hybride Attention (Compressed Sparse + Heavily Compressed) schrumpft den KV-Cache im 1-Millionen-Kontext auf rund 2 % einer klassischen Baseline – etwa 50× kleiner –, dazu kommen FP4-Quantization-Aware-Training der Expert-Gewichte und der Muon-Optimizer. Wo die Bandbreite der Flaschenhals ist, ist ein 50× kleinerer Cache kein Detail, sondern der Hebel.

Inferenz-Engpass: Memory-Bandbreite (KV-Cache lädt je Token neu)
Ökonomisches Kontextfenster: ~ 100–200 K Token (Engineering-Einordnung, Tier C)
Chipfläche: überwiegend Datenbewegung, nicht Rechenlogik
Gegenmittel (DeepSeek-V4): KV-Cache ~ 2 % einer BF16-GQA8-Baseline (~ 50× kleiner)

MerksatzNicht die Rechenleistung, sondern die Speicher-Bandbreite deckelt lange Kontexte – deshalb zählt ein schlanker KV-Cache mehr als ein riesiges beworbenes Fenster.

Warum ein großes Kontextfenster keine Garantie ist →DeepSeek-V4 Pro – Effizienz-Architektur im Detail →

Der harte Deckel sitzt in der Fertigung

Strom und Rechenzentren sind die sichtbaren Kostenstellen – der eigentliche harte Deckel sitzt aber eine Stufe tiefer, in der Chip-Fertigung. Wichtig vorweg: Anders als die Größenordnungen weiter oben (Trainings-Energie, Compute-Wachstum) ist dieser Befund nicht durch unabhängige Messungen kanonisiert; er stammt aus fachlich einschlägigen, aber teils interessierten Stimmen und ist entsprechend als Einordnung zu lesen, nicht als Faktentabelle.

Die These mit dem meisten Gewicht: Der fundamentale Engpass bis etwa 2030 sei nicht die Energie, sondern die EUV-Lithografie-Kette von ASML – die Maschinen, mit denen die feinsten Chip-Strukturen belichtet werden. So argumentiert bei Dwarkesh Patel der Branchenanalyst Dylan Patel (SemiAnalysis); selbst verdoppelte Energiekosten erhöhten die Gesamtbetriebskosten einer GPU nur marginal. Diese Position ist allerdings mit kommerziellem Eigeninteresse zu lesen – SemiAnalysis verkauft genau die Knappheits-Analysen, die hier den Markt bewegen. Die im Umlauf befindliche Zahl von „rund 100 Maschinen pro Jahr“ als Kapazitätsdecke übernehmen wir bewusst nicht: ASML lieferte 2025 eher um die 48 EUV-Systeme und fährt die Produktion auf etwa 60–80 pro Jahr hoch; die runde Hunderter-Zahl ist eine interessierte Projektion. Belastbar ist nur die Richtung – es geht um Dutzende, nicht Hunderte Maschinen, und die Kette ist eng.

Daneben steht eine geopolitische Zuspitzung: TSMC sei das kritischste einzelne Unternehmen im gesamten KI-Hardware-Stack, so der Analyse-Podcast Cognitive Revolution – ohne seine Fabriken wäre die Leistung von Nvidia, Apple und anderen schlicht nicht herstellbar; ein Angriff auf TSMC wäre der reale Tail-Risk für die globale KI-Entwicklung. Das ist eine offene Streitfrage-Position, keine Prognose – aber sie zeigt, wie schmal die Basis unter dem Boom ist.

Warum dieser ganze Layer überhaupt zählt, bringt Cognitive Revolution auf einen Begriff: Die US-KI-Industrie habe eine „Target Fixation“ auf die Software-Schicht und unterschätze die physische Infrastruktur – rund die Hälfte des Problems liege in Chips, Stromnetz und Lieferkette. Wer KI nur als Modell-Frage denkt, übersieht die Hälfte des Bildes.

Engpass-These (Tier C, interessiert): ASML-EUV-Kette, nicht Energie (SemiAnalysis)
EUV-Lieferung real: ~ 48 Systeme (2025), Ramp ~ 60–80 / Jahr
Geopolitischer Tail-Risk: TSMC als kritischstes Einzel-Unternehmen

MerksatzDer knappste Rohstoff der KI ist nicht Strom, sondern Fertigungskapazität – aber wer die Knappheit verkauft, übertreibt sie gern; Größenordnung ja, runde Zahlen nein.

Aktuelles zu Chips, Fabs & Branche →

Jenseits der GPU: neuromorphe Chips & Memristor

Ein Forschungszweig orientiert sich am Gehirn, das mit rund 20 Watt auskommt. Neuromorphe Chips sparen Energie, indem sie Speicher und Rechenwerk zusammenfallen lassen (In-Memory-Computing) – der teure Datentransport zwischen beiden entfällt. Schlüsselbauelement ist der Memristor, 1971 von Leon Chua postuliert und 2008 bei HP Labs realisiert: ein Bauteil, das speichern und rechnen vereint, ähnlich einer Synapse.

Bislang ist das Forschung und Nische, kein Ersatz für die GPU-getriebene Frontier-KI. Aber es zeigt, wo nach Effizienz gesucht wird, wenn das schiere Hochskalieren von Strom und Chips an Grenzen stößt.

MerksatzDas Gehirn rechnet mit ~20 Watt. Neuromorphe Ansätze wollen dem nahekommen, indem Speicher und Rechnen verschmelzen – noch Forschung, kein GPU-Ersatz.

Aktuelle Depeschen

Bis zu sieben KI-Gigafabriken: Die EU schreibt aus, was Europa an Rechenleistung fehlt →Das größte US-Stromnetz macht Rechenzentren abschaltbar: PJM beschließt Drosselung ab 50 Megawatt →Nvidia soll OpenAIs Rechenzentrums-Miete mit 250 Milliarden Dollar absichern – weil die Kreditmärkte allein nicht mitziehen →AMD und Intel spezifizieren gemeinsamen x86-KI-Befehlssatz ACE →