← Wissen

Kosten

Was KI kostet: Token-Preise, TCO und der Markt

KI-Nutzung wird selten am Stück bezahlt, sondern pro verarbeitetem Token – und genau das macht Kosten erst undurchsichtig und dann steuerbar. Diese Seite zeigt, wie die Abrechnung funktioniert, mit welchen Hebeln man die Gesamtkosten (TCO) drückt, wann sich Self-Hosting rechnet und wie man mit der offenen Marktdebatte umgeht.

  • 2 Min. Lesezeit
  • 4 Abschnitte
  • 4 Quellen
  • Stand: 16. Juni 2026

Abrechnung nach Tokens

Cloud-Modelle werden je Million verarbeiteter Tokens abgerechnet – getrennt nach Eingabe und Ausgabe, wobei Output-Tokens in der Regel ein Mehrfaches der Input-Tokens kosten. Lange Antworten sind damit der größere Kostentreiber, nicht lange Prompts.

Zwei Effekte verteuern die Rechnung unauffällig. Erstens zählen die internen „Denkschritte“ von Reasoning-Modellen als (teure) Output-Tokens – mehr Nachdenken kostet real Geld, auch wenn man es nicht sieht. Zweitens braucht deutscher Text spürbar mehr Tokens als englischer. Und weil Token-Zahlen vom Tokenizer abhängen, sind Preise zwischen Modellgenerationen nicht eins zu eins vergleichbar.

Abrechnung
je 1 Mio. Tokens, getrennt Input/Output – Output meist deutlich teurer
Reasoning-Falle
interne Denk-Tokens zählen als Output → Reasoning-Modelle kosten mehr
Sprache
deutscher Text ~30–50 % mehr Tokens als englischer (tokenizer-abhängig)

Merksatz Output kostet mehr als Input. Kurze, präzise Antworten – und Reasoning nur wenn nötig – sparen real Geld.

Aktuelle Preise je Modell →Wie Tokens und der deutsche Token-Aufschlag funktionieren →

Die Hebel: Gesamtkosten senken

Der erste Hebel ist die Modellwahl: Nicht jede Aufgabe braucht das teuerste Flaggschiff. Ein kleineres, schnelleres Modell erledigt Routine oft zu einem Bruchteil der Kosten – das Flaggschiff bleibt den harten Fällen vorbehalten. Der quellenkritische Kanal AI Explained zitiert dafür den Maßstab „Intelligence per Token/Dollar“ (Noam Brown): Nicht der reine Spitzen-Score entscheidet die Alltagswahl, sondern die Leistung pro ausgegebenem Dollar.

Daneben bieten die großen Anbieter konkrete Spar-Mechanismen, die man kennen sollte: Prompt Caching macht wiederkehrenden Kontext (System-Prompt, Dokumente) bei Folgeanfragen deutlich billiger; Batch-Verarbeitung rabattiert nicht eilige Massen-Aufträge, die asynchron laufen dürfen. Wer dazu Outputs knapp hält und Reasoning gezielt einsetzt, hat die größten Stellschrauben beisammen.

Modell passend wählen
kleines Modell für Routine, Flaggschiff nur für harte Fälle („Intelligence per Dollar“)
Prompt Caching
wiederkehrenden Kontext zwischenspeichern → günstigere Folgeanfragen
Batch-Verarbeitung
asynchrone Massen-Aufträge laufen rabattiert

Merksatz Die billigste Anfrage ist die, die du nicht stellst – die zweitbilligste nutzt das passende Modell, Caching und kurze Outputs.

Modell nach Preis-Leistung sortieren →

Self-Hosting vs. API: die Rechnung

Beim Geld trügt die Intuition: Eine eigene GPU wird auch im Leerlauf bezahlt, während eine Cloud-API nur pro Anfrage kostet. Self-Hosting rechnet sich deshalb erst ab hohem und vor allem gleichmäßigem Durchsatz. Wer nur sporadisch oder in Spitzen anfragt, fährt mit einer API meist günstiger – feste Break-even-Punkte gibt es nicht, sie hängen stark von den Annahmen ab.

Hinzu kommt eine oft übersehene Größenordnung: Bei breit genutzten Modellen entfällt der Großteil der Lebenszeit-Rechenkosten nicht auf das einmalige Training, sondern auf die millionenfach wiederholte Inferenz (Branchen-Faustregel: bis zu 90 %). Die laufenden Kosten entstehen also im Betrieb – egal ob man sie als Token-Preis an einen Anbieter zahlt oder als Strom und Hardware selbst trägt.

Self-Hosting lohnt
hoher, gleichmäßiger Dauerdurchsatz · Datenschutz/Air-Gap · konstante Latenz
API lohnt
schwankende/sporadische Last · Spitzenleistung · null Infrastruktur
Kostenanteil Inferenz
bis ~90 % der Lebenszeit-Rechenkosten (Faustregel, Größenordnung)

Merksatz Self-Hosting rechnet sich erst, wenn die GPU kaum stillsteht. Der Kostenblock ist der laufende Betrieb (Inferenz), nicht das Training.

Modelle lokal betreiben – Hardware & Aufwand →Was Compute und Inferenz an Energie kosten →

Boom oder Blase? Was das für die Preise heißt

Eine letzte Kostenfrage betrifft nicht das einzelne Modell, sondern den Markt drumherum – und damit indirekt die Preise, auf die man baut. Steckt hinter dem KI-Ausbau reale Nachfrage oder eine Investitionsblase? Die Antwort ist offen; wir führen sie als Streitfrage, nicht als Tatsache.

Der quellenkritische Technik-Kanal c’t 3003, den wir als verlässliche Stimme einstufen, formuliert die skeptische Position scharf: Ohne breite Zahlungsbereitschaft echter Unternehmenskunden könnte die Blase spätestens 2027/2028 platzen. Dem steht die Gegenposition gegenüber, das Nachfragewachstum sei real und die Modelle würden mit jeder Iteration sichtbar besser. Beide Lager argumentieren ohne börsenfeste Zahlen – die kursierenden Bewertungen sind Medienschätzungen, keine geprüften Geschäftszahlen.

Praktisch heißt das: Wer heute auf einen Anbieter setzt, sollte einkalkulieren, dass Preise und Verfügbarkeit von einer Marktdynamik abhängen, deren Tragfähigkeit nicht entschieden ist. Eine zweite Quelle, eine Exit-Option und ein nüchterner Blick auf die eigenen Token-Kosten sind die bessere Absicherung als jede Marktprognose.

Merksatz Ob Boom oder Blase, ist offen. Verlass dich nicht auf eine Marktprognose, sondern auf eine zweite Quelle und eine Exit-Option.

Die Anbieter-Landschaft im Überblick →

Aktuelle Depeschen

Broadcom-Report: KI-Workloads wandern in die Private Cloud →