DeepSeek · DeepSeek

DeepSeek-V4-Pro

deepseek-v4-pro

Text

Erste WahlOpen-Weight-Preis-Leistung

Der unter den : sehr starkes Coding (59) und Agentic (67) seiner Preisklasse, dabei mit Abstand am günstigsten und selbst hostbar. Erste Wahl, wo Kosten, Datenhoheit oder lange Generierungen zählen – allerdings reine Text-Modalität.

Self-Hosting
kostensensitives Reasoning
lange Generierungen

: 1 Mio.
Max. Ausgabe: 384 K Token
Preis (Input / Output): $0.435 / $0.87 je 1 Mio. Token
: 80,9 Indexpkt. je $/Mio. Token

Stärken

Offene Gewichte (auf HuggingFace publiziert, lokal/self-hosted möglich)
1-Mio.-Token-Kontext und sehr großer max. Output (384 K)
Thinking-Mode, Tool-Calls und JSON-Output

Schwächen

Hoher Output-Preis relativ zum Input (API)
Laut Doku reine Text-Modalität

Typische Einsatzfälle

lange Generierungen
Self-Hosted-Einsatz

Leistung im Vergleich

Unabhängige Indizes (Artificial Analysis, 0–100), zwei kontaminationsarme Einzel-Benchmarks (Terminal-Bench, agentische Shell-Aufgaben; τ²-bench, Tool-Use-Verlässlichkeit über viele Läufe) und Human-Präferenz-Elo (LMArena). Die dunkle Markierung zeigt den Bestwert im Katalog – so wird der Abstand zur Spitze sichtbar. Die oben ist daraus abgeleitet: AA-Intelligenz je AA-Blended-Preis (3:1) – entspricht der „Intelligence vs. Price“-Sicht von Artificial Analysis. AAs token-basiertes „Cost to Run Index“ ist nicht öffentlich abrufbar.

Benchmarks im Detail

Kennzahlen aus zitierten Messungen – unabhängige Quellen sind ausgewiesen, Anbieterangaben entsprechend markiert. Werte sind nicht über Skalen hinweg vergleichbar. Wie man Benchmark-Zahlen liest →

Artificial Analysis Intelligence Index
44
(Max)
unabhängigArtificial Analysis, abgerufen 2026-06-16
Artificial Analysis Coding Index
59
(Max)
unabhängigArtificial Analysis Coding Index, abgerufen 2026-07-09
Artificial Analysis Agentic Index
67
(Max)
unabhängigArtificial Analysis Agentic Index, abgerufen 2026-06-16
LMArena Text Arena (Elo)
1457
unabhängigLMArena (arena.ai), Stand 2026-06-10
DeepSWE (Long-Horizon Coding)
8 %
unabhängigdeepswe.lol (kontaminationsfrei, mini-swe-agent), 2026-06-16
Terminal-Bench (agentische Shell-Aufgaben)
64 %
unabhängigArtificial Analysis (API), abgerufen 2026-06-16
τ²-bench (Tool-Use-Verlässlichkeit)
96 %
unabhängigArtificial Analysis (API), abgerufen 2026-06-16

Einordnung

Im 59 – klar vor Grok 4.3 (42), aber unter Gemini 3.5 Flash (70); bei offenen Gewichten (lokal/self-hosted betreibbar) und sehr günstigem API-Preis ($0,44 / $0,87). Unter den Open-Weight-Modellen liegen nur die teureren GLM-5.2 (69) und Kimi K2.6 (62) beim Coding höher.Beleg · Sekundärquelle
Langer-Kontext-Champion der offenen Gewichte: unterstützt nativ 1 Mio. mit laut Tech Report nahezu state-of-the-art Retrieval und gilt als bestes Open-Source-Modell dieser Kontextgröße – dazu eine dauerhaft auf rund 75 % gesenkte API gegenüber V3.2. Die Budget-Wahl, wenn lange Kontexte ohne Vendor-Lock-in gebraucht werden.Beleg · Community

Aus der System-Card

Verdichtete Befunde aus der offiziellen des Anbieters (Primärquelle, ). Fähigkeitswerte sind Anbieterangaben – nicht unabhängig nachgemessen. Card-Stand 2026-04-24.

Fähigkeiten

Coding – Laut Report (Fig. 1) erreicht DeepSeek-V4-Pro-Max bei „“ 80,6 % – im Chart auf Augenhöhe mit Opus 4.6-Max und GPT-5.4-xHigh.
Architektur – Laut Report kombiniert es eine hybride Attention aus Compressed (CSA) und Heavily Compressed Attention (HCA) mit Manifold-Constrained Hyper-Connections (mHC) und dem Muon-Optimizer, um 1M-Token-Kontext effizient zu tragen.
Long-Context-Effizienz – Laut Report braucht es im 1M-Token-Kontext nur noch 27 % der Single-Token-FLOPs und 10 % des KV-Caches gegenüber DeepSeek-V3.2.
Reasoning – Laut Report schlägt der Maximal-Reasoning-Modus „Pro-Max“ auf Standard-Reasoning-Benchmarks GPT-5.2 und Gemini 3.0 Pro, bleibt aber hinter GPT-5.4 und Gemini 3.1 Pro.

Verhalten & Sicherheit

Lizenz – Laut Model-Card stehen Modellgewichte und Code unter der MIT-Lizenz – einer freien, permissiven Lizenz ohne Nutzer-/MAU-Schranken.
Vorgesehene Nutzung – Laut Model-Card ist V4 ein Allzweck-Modell (Q&A, allgemeine Agenten-Aufgaben) mit drei Reasoning-Modi: Non-think, Think High und Think Max.
Datenschutz – Laut Model-Card sammelt das Pre-Training keine personenbezogenen Daten absichtlich; sensible Infos, Kreditkartennummern und eindeutige Identifikatoren werden gefiltert, einfließende Nutzereingaben verschlüsselt und de-identifiziert.
Trainingsdaten – Laut Model-Card stützt sich das Training auf öffentlich verfügbare Internetdaten plus lizenzierte Drittanbieter-Datensätze, mit Betonung von IP-, Geschäftsgeheimnis- und Datenschutz-Konformität.
API-Nutzung – Neben den offenen Gewichten gibt es eine API; deren Nutzung unterliegt den „DeepSeek Open Platform Terms of Service“.

Die Fähigkeiten stammen aus dem DeepSeek-V4 Technical Report (anbieter-selbstberichtet, „Preview“), Verhalten/Lizenz/Datenschutz aus DeepSeeks separater Transparenz-Model-Card (Stand April 2026); quantitative Safety-/Red-Team-Eval-Ergebnisse weist keines der Dokumente aus.

DeepSeek – DeepSeek-V4 Technical Report (PDF)· Primärquelle, abgerufen 2026-06-16

Stimmen aus der Öffentlichkeit

Subjektive Einschätzungen Dritter – keine belegten Fakten, jeweils verlinkt.

positivWürdigt DeepSeeks Infrastruktur- und Architekturdesign anschlussfähig am 58-seitigen Tech Report – hybride Attention (CSA/HCA), FP4-Quantization-Aware-Training für den Indexer und der Muon-Optimizer („absolut umwerfend, und das alles frei geteilt“).bycloud (YouTube) – „The Insane Infrastructure Design of DeepSeek V4“ · Community
gemischtErnstzunehmender Open-Weight-Frontier-Kandidat, dessen Existenz als Herausforderung an US-Anbieter gilt – ob er echten Frontier-Anschluss hält oder nur Effizienz-Champion der Open-Source-Liga ist, sieht die Szene als offen an.Cognitive Revolution (YouTube) · Community
kritischIm Coding-Agentic-Bereich klare Schwäche: bei echten Multi-File-Codebase-Aufgaben fällt das Modell laut Beobachtern schnell ab und liegt deutlich hinter GPT-5.5.Theo – t3.gg (YouTube) · Community
kritischIm eigenen Dokument-Extraktions-Test des Hosts (ein Behördenformular treu auslesen) lag „das neueste DeepSeek“ – wie alle getesteten China-Modelle – weit hinter Gemini 3, Claude Opus 4.5 und ChatGPT; der Host räumt aber ein, hier teils nach Bauchgefühl zu urteilen.Cognitive Revolution (YouTube) · Community

ℹ️ 1,6 Bio. total, 49 Mrd. aktiv je Token (, 61 Layer); trainiert auf 33 Bio. Tokens. Architektur laut Tech Report: hybride Attention (CSA+HCA), Hash-Routing in den ersten 3 MoE-Layern, FP4-Quantization-Aware-Training, Muon-Optimizer. API-Input $0,435 (Cache-Miss), $0,003625 (Cache-Hit). Offene Gewichte auf HuggingFace; Schwestermodell V4-Flash (284B/13B, $0,14 / $0,28).