Werkzeug · Bildgenerierung
GPT Image 2
von OpenAI
OpenAIs Bildmodell: erzeugt und bearbeitet Bilder mit verlässlichem In-Bild-Text und plant vor dem Zeichnen („Bild mit Nachdenken“).
Einschätzung
Beschriftete Grafik & Bild-Editing
Die derzeit stärkste Wahl, wenn Text im Bild stimmen muss und das Ergebnis marken-/layouttreu sein soll – samt vorgeschaltetem Planungsschritt. Für rein künstlerische Bildsprache ist Midjourney näher dran, für faktentreue Motive Nano Banana Pro.
GPT Image 2 ist OpenAIs Text-zu-Bild- und Bildbearbeitungs-Modell (API-ID „gpt-image-2“), seit 21. April 2026 in ChatGPT sowie über die API und Codex verfügbar – Nachfolger von DALL·E 3 und GPT Image 1.5. Neu ist ein vorgeschalteter Denkschritt („Bild mit Nachdenken“): Das Modell plant und verfeinert das Layout, bevor es das Bild rechnet.
Schwerpunkt ist produktionstaugliche, marken- und layout-treue Grafik: laut OpenAI rendert es Text im Bild mit rund 99 % Zeichengenauigkeit über Latein, Japanisch, Koreanisch, Hindi, Bengali, Arabisch und weitere Schriften, liefert bis zu 4K Auflösung und kann bestehende Bilder gezielt umbauen. In der LMArena-Text-zu-Bild-Arena führt es im Juni 2026 das Feld an.
Wofür es gut ist
- Beschriftete Grafik – Banner, Poster, Mockups mit korrektem Text im Bild
- Marken- und produktionstreue Assets (Layout, Format, Lokalisierung)
- Gezieltes Bearbeiten und Umbauen vorhandener Bilder
Stärken
- Verlässlicher Text im Bild (laut OpenAI ~99 % über viele Schriften)
- Plant das Bild vor der Generierung („Bild mit Nachdenken“)
- Starkes, gezieltes Bearbeiten bestehender Bilder; bis 4K
- In ChatGPT (alle Tarife), per API und in Codex nutzbar
Schwächen
- Proprietär, keine offenen Gewichte
- Künstlerische Stilbreite weniger ausgeprägt als bei Midjourney
Im Vergleich
Wofür dieses Werkzeug die bessere Wahl ist – und wann ein direkter Konkurrent.
- Direkter Gegenspieler ist Googles Nano Banana Pro: GPT Image 2 gilt bei In-Bild-Text und Prompt-Treue als knapp führend, Nano Banana Pro punktet mit Google-Search-Grounding für faktentreue Motive und Multi-Bild-Komposition. Gegenüber Midjourney liegt der Vorteil bei präzisem Text und Marken-/Produktionsgrafik statt künstlerischer Bildsprache.
Stimmen aus der Community
Subjektive Einschätzungen Dritter – keine belegten Fakten, jeweils verlinkt.
- neutralFührt im Juni 2026 die LMArena-Text-zu-Bild-Arena an – ein Blindvergleich, bei dem Nutzer Bildpaare ohne Kenntnis des Modells bewerten (relativ lesen, Stil-Bias möglich).LMArena – Text-to-Image-Leaderboard · Sekundärquelle, Juni 2026
Direkt ausprobieren
openai.com/index/introducing-chatgpt-images-2-0