Google · Gemini

Gemini 3.1 Pro

gemini-3.1-pro-preview

TextBildVideoAudioPDF

Erste WahlMultimodal-Spezialist

Erste Wahl für breit Arbeit – Bild, Video, Audio und PDF, was sonst kein Flaggschiff im Katalog leistet. Beim Coding (69) stärker, als der Allzweck-Wert (46) vermuten lässt, und günstiger als die Index-Spitze. Höchster Human-Präferenz- nach dem gesperrten Fable 5.

Video-/Audio-/PDF-Analyse
lange Dokumente
multimodale agentische Workflows

Stärker bei gleichem oder geringerem Preis: Gemini 3.5 Flash — erreicht alle unabhängigen AA-Indizes ≥ bei niedrigerem .

: 1 Mio.
Max. Ausgabe: 65.536 K Token
Preis (Input / Output): $2 / $12 je 1 Mio. Token
: 10,2 Indexpkt. je $/Mio. Token
: Jan 2025
: FSF: Cyber-Alert

Stärken

Breit multimodal: Text, Bild, Video, Audio und PDF
1-Mio.-Token-Kontextfenster
Auf agentische und Coding-Aufgaben ausgelegt (Anbieterangabe)

Schwächen

Noch im Preview-Status
Gestaffelter Preis: über 200 K teurer ($4 / $18)
Proprietär, nur über die Cloud-API nutzbar

Typische Einsatzfälle

Multimodale Analyse
lange Dokumente und Video
agentische Workflows

Leistung im Vergleich

Unabhängige Indizes (Artificial Analysis, 0–100), zwei kontaminationsarme Einzel-Benchmarks (Terminal-Bench, agentische Shell-Aufgaben; τ²-bench, Tool-Use-Verlässlichkeit über viele Läufe) und Human-Präferenz-Elo (LMArena). Die dunkle Markierung zeigt den Bestwert im Katalog – so wird der Abstand zur Spitze sichtbar. Die oben ist daraus abgeleitet: AA-Intelligenz je AA-Blended-Preis (3:1) – entspricht der „Intelligence vs. Price“-Sicht von Artificial Analysis. AAs token-basiertes „Cost to Run Index“ ist nicht öffentlich abrufbar.

Benchmarks im Detail

Kennzahlen aus zitierten Messungen – unabhängige Quellen sind ausgewiesen, Anbieterangaben entsprechend markiert. Werte sind nicht über Skalen hinweg vergleichbar. Wie man Benchmark-Zahlen liest →

Artificial Analysis Intelligence Index
46
(Preview, #10/152)
unabhängigArtificial Analysis, abgerufen 2026-06-16
Artificial Analysis Coding Index
69
(Preview)
unabhängigArtificial Analysis Coding Index, abgerufen 2026-07-09
Artificial Analysis Agentic Index
59
(Preview)
unabhängigArtificial Analysis Agentic Index, abgerufen 2026-06-16
SWE-bench Verified (Coding)
80,6 %
(gesättigt & kontaminationsanfällig)
Anbieterangabellm-stats.com, 2026-06-16
LMArena Text Arena (Elo)
1487
unabhängigLMArena (arena.ai), Stand 2026-06-10
DeepSWE (Long-Horizon Coding)
10 %
unabhängigdeepswe.lol (kontaminationsfrei, mini-swe-agent), 2026-06-16
Terminal-Bench (agentische Shell-Aufgaben)
74 %
unabhängigArtificial Analysis (API), abgerufen 2026-06-16
τ²-bench (Tool-Use-Verlässlichkeit)
96 %
unabhängigArtificial Analysis (API), abgerufen 2026-06-16

Einordnung

Beim Coding stärker, als der Allzweck-Wert vermuten lässt: 69 – oberes Mittelfeld, wenn auch unter GPT-5.5 (75)/Opus 4.8 (74), während es im allgemeinen Intelligence-Index mit 46 klar hinter beiden liegt.Beleg · Sekundärquelle
Im unabhängigen hinter Opus 4.8 (56) und GPT-5.5 (55) – Rang 46 (#10/152).Beleg · Sekundärquelle
Gegenüber den Index-Spitzenreitern günstiger ($2 / $12 vs. $5 / $25 bei Opus 4.8) und breiter multimodal (Bild, Video, Audio, PDF).

Aus der System-Card

Verdichtete Befunde aus der offiziellen des Anbieters (Primärquelle, ). Fähigkeitswerte sind Anbieterangaben – nicht unabhängig nachgemessen. Card-Stand 2026-02-01.

Fähigkeiten

Reasoning – Laut Card erreicht Gemini 3.1 Pro (Thinking High) auf GPQA Diamond 94,3 % und auf ARC-AGI-2 (Verified) 77,1 % – klar über Gemini 3 Pro (91,9 % bzw. 31,1 %).
Coding – Laut Card liegt es bei bei 80,6 %, bei Terminal-Bench 2.0 bei 68,5 % und auf LiveCodeBench Pro bei einer Elo von 2887 (Gemini 3 Pro: 2439).
Humanity’s Last Exam – Laut Card erreicht es auf Humanity’s Last Exam 44,4 % ohne Tools und 51,4 % mit Search + Code.
Agentisch & Multimodal – Laut Card u. a. 99,3 % auf (Telecom), 85,9 % auf BrowseComp und 92,6 % auf MMMLU (multilingual).

Verhalten & Sicherheit

FSF-Gesamtbild – Nach Googles Frontier Safety Framework bleibt das Modell unter den Alert-Schwellen für CBRN, Harmful Manipulation, Machine-Learning-R&D und Misalignment.
Cyber – Wie schon Gemini 3 Pro erreicht es im Cyber-Bereich die Alert-Schwelle, bleibt laut Card aber unter dem für das Critical Capability Level nötigen Uplift.
CBRN – Laut Card kann es im Deep-Think-Modus präzise, umsetzbare Informationen liefern, aber keine vollständigen Anleitungen für kritische Schritte – das CBRN-CCL (Uplift Level 1) wird nicht erreicht.
Harmful Manipulation – Laut Card zeigte es eine erhöhte Überzeugungswirkung (max. Odds Ratio 3,6×, wie Gemini 3 Pro), erreichte die Alert-Schwelle aber nicht.
Refusals & Ton – Laut Card bleiben unbegründete Verweigerungen niedrig (−0,08 % ggü. Gemini 3.0 Pro); Text- und Multilingual-Safety leicht besser, manuell geprüfte Rückgänge waren überwiegend False Positives.
Red Teaming – Laut Card erfüllte das Modell im manuellen Red-Teaming externer Spezialteams die Child-Safety-Launch-Schwellen, mit insgesamt ähnlicher Sicherheitsperformance wie Gemini 3.0 Pro.

Die Benchmarks sind anbieter-selbstberichtete Automatik-Evals (kein menschliches Red-Teaming der Score-Tabelle), mit verbesserten Eval-Sets gerechnet und daher nicht 1:1 mit früheren Gemini-Cards vergleichbar; viele Detailangaben (Architektur, Training) verweist die Card auf die Gemini-3-Pro-Card.

Google DeepMind – Gemini 3.1 Pro Model Card (PDF)· Primärquelle, abgerufen 2026-06-16

Stimmen aus der Öffentlichkeit

Subjektive Einschätzungen Dritter – keine belegten Fakten, jeweils verlinkt.

gemischtSpitzen-Benchmarks (Rekord auf der privaten SimpleBench, ARC-AGI-2 vor Claude Opus 4.6), aber im Cursor-Praxistest „Seiten voller Geschwätz“ und ein Rückstand auf GDPval – starke Werte täuschen über benchmark-getriebene Abkürzungen hinweg.AI Explained (YouTube) · Community
kritischRiesiger Benchmark-Sprung von 3 auf 3.1, in der Praxis aber „benchmark-maximiert“: bei anspruchsvollen Rückfragen eine „Wand aus Slop“, schwache Persönlichkeit und Promptbarkeit – wird nach kurzem Test als „bloß ein Gemini-Modell“ weggelegt.Cognitive Revolution (YouTube) · Community
positivLaut dem Creator wohl der beste UI-Designer unter den LLMs: liefert aus Bild + Prompt in einem Durchgang aufwendige UIs (Skeuomorphismus, WebGL, Animationen) und widerlegt das Klischee, KI-Design sehe nach „Slop“ aus.1littlecoder (YouTube) · Community
gemischtBeim Frontend-Design gern als Startpunkt genutzt – die größte Vielfalt (~15 Templates), aber ein Teil davon „Müll“; nur mit viel Hin und Her und vielen Rerolls steuerbar, folgt Anweisungen oft überpedantisch-wörtlich. Opus liefert weniger Vielfalt, dafür treffsicherer.Theo – t3.gg (YouTube) · Community

ℹ️ Preis gilt für Prompts bis 200 K Token; darüber $4 / $18 je 1 Mio. Token. Modell-ID gemini-3.1-pro-preview (Preview).