Kosten
Was KI kostet: Token-Preise, TCO und der Markt
KI-Nutzung wird selten am Stück bezahlt, sondern pro verarbeitetem Token – und genau das macht Kosten erst undurchsichtig und dann steuerbar. Diese Seite zeigt, wie die Abrechnung funktioniert, mit welchen Hebeln man die Gesamtkosten (TCO) drückt, wann sich Self-Hosting rechnet und wie man mit der offenen Marktdebatte umgeht.
Abrechnung nach Tokens
Cloud-Modelle werden je Million verarbeiteter Tokens abgerechnet – getrennt nach Eingabe und Ausgabe, wobei Output-Tokens in der Regel ein Mehrfaches der Input-Tokens kosten. Lange Antworten sind damit der größere Kostentreiber, nicht lange Prompts.
Zwei Effekte verteuern die Rechnung unauffällig. Erstens zählen die internen „Denkschritte“ von Reasoning-Modellen als (teure) Output-Tokens – mehr Nachdenken kostet real Geld, auch wenn man es nicht sieht. Zweitens braucht deutscher Text spürbar mehr Tokens als englischer. Und weil Token-Zahlen vom Tokenizer abhängen, sind Preise zwischen Modellgenerationen nicht eins zu eins vergleichbar.
- Abrechnung
- je 1 Mio. Tokens, getrennt Input/Output – Output meist deutlich teurer
- Reasoning-Falle
- interne Denk-Tokens zählen als Output → Reasoning-Modelle kosten mehr
- Sprache
- deutscher Text ~30–50 % mehr Tokens als englischer (tokenizer-abhängig)
Merksatz Output kostet mehr als Input. Kurze, präzise Antworten – und Reasoning nur wenn nötig – sparen real Geld.
Aktuelle Preise je Modell →Wie Tokens und der deutsche Token-Aufschlag funktionieren →
Die Hebel: Gesamtkosten senken
Der erste Hebel ist die Modellwahl: Nicht jede Aufgabe braucht das teuerste Flaggschiff. Ein kleineres, schnelleres Modell erledigt Routine oft zu einem Bruchteil der Kosten – das Flaggschiff bleibt den harten Fällen vorbehalten. Der quellenkritische Kanal AI Explained zitiert dafür den Maßstab „Intelligence per Token/Dollar“ (Noam Brown): Nicht der reine Spitzen-Score entscheidet die Alltagswahl, sondern die Leistung pro ausgegebenem Dollar.
Daneben bieten die großen Anbieter konkrete Spar-Mechanismen, die man kennen sollte: Prompt Caching macht wiederkehrenden Kontext (System-Prompt, Dokumente) bei Folgeanfragen deutlich billiger; Batch-Verarbeitung rabattiert nicht eilige Massen-Aufträge, die asynchron laufen dürfen. Wer dazu Outputs knapp hält und Reasoning gezielt einsetzt, hat die größten Stellschrauben beisammen.
- Modell passend wählen
- kleines Modell für Routine, Flaggschiff nur für harte Fälle („Intelligence per Dollar“)
- Prompt Caching
- wiederkehrenden Kontext zwischenspeichern → günstigere Folgeanfragen
- Batch-Verarbeitung
- asynchrone Massen-Aufträge laufen rabattiert
Merksatz Die billigste Anfrage ist die, die du nicht stellst – die zweitbilligste nutzt das passende Modell, Caching und kurze Outputs.
Self-Hosting vs. API: die Rechnung
Beim Geld trügt die Intuition: Eine eigene GPU wird auch im Leerlauf bezahlt, während eine Cloud-API nur pro Anfrage kostet. Self-Hosting rechnet sich deshalb erst ab hohem und vor allem gleichmäßigem Durchsatz. Wer nur sporadisch oder in Spitzen anfragt, fährt mit einer API meist günstiger – feste Break-even-Punkte gibt es nicht, sie hängen stark von den Annahmen ab.
Hinzu kommt eine oft übersehene Größenordnung: Bei breit genutzten Modellen entfällt der Großteil der Lebenszeit-Rechenkosten nicht auf das einmalige Training, sondern auf die millionenfach wiederholte Inferenz (Branchen-Faustregel: bis zu 90 %). Die laufenden Kosten entstehen also im Betrieb – egal ob man sie als Token-Preis an einen Anbieter zahlt oder als Strom und Hardware selbst trägt.
- Self-Hosting lohnt
- hoher, gleichmäßiger Dauerdurchsatz · Datenschutz/Air-Gap · konstante Latenz
- API lohnt
- schwankende/sporadische Last · Spitzenleistung · null Infrastruktur
- Kostenanteil Inferenz
- bis ~90 % der Lebenszeit-Rechenkosten (Faustregel, Größenordnung)
Merksatz Self-Hosting rechnet sich erst, wenn die GPU kaum stillsteht. Der Kostenblock ist der laufende Betrieb (Inferenz), nicht das Training.
Modelle lokal betreiben – Hardware & Aufwand →Was Compute und Inferenz an Energie kosten →
Boom oder Blase? Was das für die Preise heißt
Eine letzte Kostenfrage betrifft nicht das einzelne Modell, sondern den Markt drumherum – und damit indirekt die Preise, auf die man baut. Steckt hinter dem KI-Ausbau reale Nachfrage oder eine Investitionsblase? Die Antwort ist offen; wir führen sie als Streitfrage, nicht als Tatsache.
Der quellenkritische Technik-Kanal c’t 3003, den wir als verlässliche Stimme einstufen, formuliert die skeptische Position scharf: Ohne breite Zahlungsbereitschaft echter Unternehmenskunden könnte die Blase spätestens 2027/2028 platzen. Dem steht die Gegenposition gegenüber, das Nachfragewachstum sei real und die Modelle würden mit jeder Iteration sichtbar besser. Beide Lager argumentieren ohne börsenfeste Zahlen – die kursierenden Bewertungen sind Medienschätzungen, keine geprüften Geschäftszahlen.
Praktisch heißt das: Wer heute auf einen Anbieter setzt, sollte einkalkulieren, dass Preise und Verfügbarkeit von einer Marktdynamik abhängen, deren Tragfähigkeit nicht entschieden ist. Eine zweite Quelle, eine Exit-Option und ein nüchterner Blick auf die eigenen Token-Kosten sind die bessere Absicherung als jede Marktprognose.
Merksatz Ob Boom oder Blase, ist offen. Verlass dich nicht auf eine Marktprognose, sondern auf eine zweite Quelle und eine Exit-Option.
Aktuelle Depeschen
Broadcom-Report: KI-Workloads wandern in die Private Cloud →