Kosten

Was KI kostet: Token-Preise, TCO und der Markt

KI-Nutzung wird selten am Stück bezahlt, sondern pro verarbeitetem Token – und genau das macht Kosten erst undurchsichtig und dann steuerbar. Diese Seite zeigt, wie die Abrechnung funktioniert, mit welchen Hebeln man die Gesamtkosten (TCO) drückt, wann sich Self-Hosting rechnet und wie man mit der offenen Marktdebatte umgeht.

2 Min. Lesezeit
4 Abschnitte
4 Quellen
Stand: 16. Juni 2026

Abrechnung nach Tokens

Cloud-Modelle werden je Million verarbeiteter Tokens abgerechnet – getrennt nach Eingabe und Ausgabe, wobei Output-Tokens in der Regel ein Mehrfaches der Input-Tokens kosten. Lange Antworten sind damit der größere Kostentreiber, nicht lange Prompts.

Zwei Effekte verteuern die Rechnung unauffällig. Erstens zählen die internen „Denkschritte“ von -Modellen als (teure) Output-Tokens – mehr Nachdenken kostet real Geld, auch wenn man es nicht sieht. Zweitens braucht deutscher Text spürbar mehr Tokens als englischer. Und weil Token-Zahlen vom Tokenizer abhängen, sind Preise zwischen Modellgenerationen nicht eins zu eins vergleichbar.

Abrechnung: je 1 Mio. Tokens, getrennt Input/Output – Output meist deutlich teurer
Reasoning-Falle: interne Denk-Tokens zählen als Output → Reasoning-Modelle kosten mehr
Sprache: deutscher Text ~30–50 % mehr Tokens als englischer (tokenizer-abhängig)

MerksatzOutput kostet mehr als Input. Kurze, präzise Antworten – und Reasoning nur wenn nötig – sparen real Geld.

Aktuelle Preise je Modell →Wie Tokens und der deutsche Token-Aufschlag funktionieren →

Die Hebel: Gesamtkosten senken

Der erste Hebel ist die Modellwahl: Nicht jede Aufgabe braucht das teuerste Flaggschiff. Ein kleineres, schnelleres Modell erledigt Routine oft zu einem Bruchteil der Kosten – das Flaggschiff bleibt den harten Fällen vorbehalten. Der quellenkritische Kanal AI Explained zitiert dafür den Maßstab „Intelligence per Token/Dollar“ (Noam Brown): Nicht der reine Spitzen-Score entscheidet die Alltagswahl, sondern die Leistung pro ausgegebenem Dollar.

Daneben bieten die großen Anbieter konkrete Spar-Mechanismen, die man kennen sollte: Prompt Caching macht wiederkehrenden Kontext (System-Prompt, Dokumente) bei Folgeanfragen deutlich billiger; Batch-Verarbeitung rabattiert nicht eilige Massen-Aufträge, die asynchron laufen dürfen. Wer dazu Outputs knapp hält und Reasoning gezielt einsetzt, hat die größten Stellschrauben beisammen.

Modell passend wählen: kleines Modell für Routine, Flaggschiff nur für harte Fälle („Intelligence per Dollar“)
Prompt Caching: wiederkehrenden Kontext zwischenspeichern → günstigere Folgeanfragen
Batch-Verarbeitung: asynchrone Massen-Aufträge laufen rabattiert

MerksatzDie billigste Anfrage ist die, die du nicht stellst – die zweitbilligste nutzt das passende Modell, Caching und kurze Outputs.

Modell nach Preis-Leistung sortieren →

Self-Hosting vs. API: die Rechnung

Beim Geld trügt die Intuition: Eine eigene GPU wird auch im Leerlauf bezahlt, während eine Cloud-API nur pro Anfrage kostet. Self-Hosting rechnet sich deshalb erst ab hohem und vor allem gleichmäßigem Durchsatz. Wer nur sporadisch oder in Spitzen anfragt, fährt mit einer API meist günstiger – feste Break-even-Punkte gibt es nicht, sie hängen stark von den Annahmen ab.

Hinzu kommt eine oft übersehene Größenordnung: Bei breit genutzten Modellen entfällt der Großteil der Lebenszeit-Rechenkosten nicht auf das einmalige Training, sondern auf die millionenfach wiederholte (Branchen-Faustregel: bis zu 90 %). Die laufenden Kosten entstehen also im Betrieb – egal ob man sie als an einen Anbieter zahlt oder als Strom und Hardware selbst trägt.

Self-Hosting lohnt: hoher, gleichmäßiger Dauerdurchsatz · Datenschutz/Air-Gap · konstante Latenz
API lohnt: schwankende/sporadische Last · Spitzenleistung · null Infrastruktur
Kostenanteil Inferenz: bis ~90 % der Lebenszeit-Rechenkosten (Faustregel, Größenordnung)

MerksatzSelf-Hosting rechnet sich erst, wenn die GPU kaum stillsteht. Der Kostenblock ist der laufende Betrieb (Inferenz), nicht das Training.

Modelle lokal betreiben – Hardware & Aufwand →Was Compute und Inferenz an Energie kosten →

Boom oder Blase? Was das für die Preise heißt

Eine letzte Kostenfrage betrifft nicht das einzelne Modell, sondern den Markt drumherum – und damit indirekt die Preise, auf die man baut. Steckt hinter dem KI-Ausbau reale Nachfrage oder eine Investitionsblase? Die Antwort ist offen; wir führen sie als Streitfrage, nicht als Tatsache.

Der quellenkritische Technik-Kanal c’t 3003, den wir als verlässliche Stimme einstufen, formuliert die skeptische Position scharf: Ohne breite Zahlungsbereitschaft echter Unternehmenskunden könnte die Blase spätestens 2027/2028 platzen. Dem steht die Gegenposition gegenüber, das Nachfragewachstum sei real und die Modelle würden mit jeder Iteration sichtbar besser. Beide Lager argumentieren ohne börsenfeste Zahlen – die kursierenden Bewertungen sind Medienschätzungen, keine geprüften Geschäftszahlen.

Praktisch heißt das: Wer heute auf einen Anbieter setzt, sollte einkalkulieren, dass Preise und Verfügbarkeit von einer Marktdynamik abhängen, deren Tragfähigkeit nicht entschieden ist. Eine zweite Quelle, eine Exit-Option und ein nüchterner Blick auf die eigenen Token-Kosten sind die bessere Absicherung als jede Marktprognose.

MerksatzOb Boom oder Blase, ist offen. Verlass dich nicht auf eine Marktprognose, sondern auf eine zweite Quelle und eine Exit-Option.

Die Anbieter-Landschaft im Überblick →

Aktuelle Depeschen

DeepSeek V4 Flash 0731: reines Post-Training hebt den AA-Index um zehn Punkte auf 50 – einen hinter GPT-5.6 Luna →1,1 Billionen Dollar Capex seit 2023 – und Microsofts 15-Milliarden-Kürzung ist eine Leasing-Umbuchung →OpenAI senkt GPT-5.6 Luna um 80 Prozent – und schreibt die Ersparnis dem eigenen Modell zu →Cursor baut einen Tarif nur für Indien: 649 Rupien im Monat – aber ohne die Modelle von OpenAI und Anthropic →