Alibaba · Qwen

Qwen3-Max

qwen3-max

Text

Solide WahlAgentic-Allzweck (Alibaba Cloud)

Auf mehrstufige, tool-lastige Workflows ausgelegt, mit großem 256-K-Kontext und günstigem Kurz-Prompt-Preis. Nur über Alibaba Cloud nutzbar und bei langen Prompts gestaffelt teurer; im 24 (AA-Schätzung), 26, dazu 1435.

agentische, mehrstufige Workflows
Tool-Calling
lange Kontexte

: 262 K
Max. Ausgabe: 65.536 K Token
Preis (Input / Output): $1.2 / $6 je 1 Mio. Token
: 10,0 Indexpkt. je $/Mio. Token

Stärken

Leistungsstärkstes Modell der Qwen-Reihe (Anbieterangabe)
Großes 256-K-Token-Kontextfenster (262 144)
Natives Tool-Calling, auf komplexe mehrstufige Aufgaben ausgelegt

Schwächen

Proprietär, nur über Alibaba Cloud Model Studio / DashScope nutzbar
Reine Text-Modalität
Gestaffelter Preis – über 32 K bzw. 128 K deutlich teurer

Typische Einsatzfälle

Agentische, mehrstufige Workflows
Coding
lange Kontexte

Leistung im Vergleich

Unabhängige Indizes (Artificial Analysis, 0–100), zwei kontaminationsarme Einzel-Benchmarks (Terminal-Bench, agentische Shell-Aufgaben; τ²-bench, Tool-Use-Verlässlichkeit über viele Läufe) und Human-Präferenz-Elo (LMArena). Die dunkle Markierung zeigt den Bestwert im Katalog – so wird der Abstand zur Spitze sichtbar. Die oben ist daraus abgeleitet: AA-Intelligenz je AA-Blended-Preis (3:1) – entspricht der „Intelligence vs. Price“-Sicht von Artificial Analysis. AAs token-basiertes „Cost to Run Index“ ist nicht öffentlich abrufbar.

Benchmarks im Detail

Kennzahlen aus zitierten Messungen – unabhängige Quellen sind ausgewiesen, Anbieterangaben entsprechend markiert. Werte sind nicht über Skalen hinweg vergleichbar. Wie man Benchmark-Zahlen liest →

Artificial Analysis Intelligence Index
24
(AA-Schätzung)
unabhängigArtificial Analysis (API), abgerufen 2026-06-16 – Schätzwert
Artificial Analysis Coding Index
26
unabhängigArtificial Analysis (API), abgerufen 2026-06-16
LMArena Text Arena (Elo)
1435
(Preview)
unabhängigLMArena (arena.ai), Stand 2026-06-10
τ²-bench (Tool-Use-Verlässlichkeit)
74 %
unabhängigArtificial Analysis (API), abgerufen 2026-06-16

Einordnung

Großes 256-K- und natives ; günstig bei kurzen Prompts ($1,20 / $6), aber gestaffelt teurer bei langen und auf reine Text-Modalität beschränkt.
(nur über Alibaba Cloud Model Studio). Das neuere agenten-fokussierte Qwen3.7-Max ist im Rollout, hier aber bewusst nicht aufgenommen (primär noch unbelegt).

Stimmen aus der Öffentlichkeit

Subjektive Einschätzungen Dritter – keine belegten Fakten, jeweils verlinkt.

gemischtLäuft lokal solide – die rund 27B-Variante (Qwen 3.6 27B) auf einer RTX 5090 fühlt sich „Sonnet-4-Niveau“ an und taugt bei Datenschutzbedarf für Klassifikations- und Sub-Agenten-Tasks; Frontier ist es ausdrücklich nicht.Nerd Snipe (YouTube) · Community
positivQwen 3 VL gilt als „world-class“ und mit geschlossenen Modellen konkurrenzfähig bei Vision-Language-Reasoning und Szenenverständnis – phänomenale Arbeit des Alibaba-Qwen-Teams.Cognitive Revolution (YouTube) · Community

ℹ️ Gestaffelter Preis (International Deployment): Input $1,20 (0–32 K) / $2,40 (32–128 K) / $3 (128–252 K); Output $6 / $12 / $15 je 1 Mio. Token. Max. Input 258 048, max. Output 65 536 (ohne Thinking) bzw. 32 768 (mit Thinking). -Varianten der Qwen-Reihe (Qwen3.6, Apache 2.0) liegen auf ; das neuere agenten-fokussierte Qwen3.7-Max ist noch im Rollout und hier bewusst nicht aufgenommen (im offiziellen Modell-/Pricing-Register noch nicht belegt).