← Alle Depeschen

Werkzeugeneu

Mistral OCR 4: Dokument-KI, die Struktur statt nur Text liefert – auch im eigenen Container

Mistral AI hat am 23. Juni 2026 OCR 4 veröffentlicht, ein spezialisiertes Dokument-KI-Modell. Statt PDFs und Scans nur in Fließtext umzuwandeln, gibt es eine strukturierte Repräsentation zurück – mit Bounding-Boxes, Block-Klassifikation (Titel, Tabelle, Formel, Signatur) und Konfidenzwerten pro Seite und Wort, über 170 Sprachen. Es läuft über Mistrals API, Amazon SageMaker und Microsoft Foundry sowie als einzelner, selbst gehosteter Container; der Listenpreis liegt bei 4 $ pro 1 000 Seiten (2 $ über die Batch-API). Wir haben es in den Werkzeug-Katalog aufgenommen.

Mistral OCR 4 ist kein allgemeiner Chat-Assistent, sondern ein spezialisiertes Dokument-KI-Modell. Der Unterschied zur klassischen Texterkennung (und zum Vorgänger OCR 3, der Seiten in sauberen Text und Tabellen umwandelte) liegt in der Ausgabe: OCR 4 liefert eine strukturierte Repräsentation des Dokuments – Bounding-Boxes (wo genau steht was), eine typisierte Block-Klassifikation (Titel, Tabelle, Formel, Signatur …) und Konfidenzwerte pro Seite und Wort. Verarbeitet werden PDFs, Word-, PowerPoint- und OpenDocument-Dateien sowie Scans über 170 Sprachen in 10 Sprachgruppen.

Der Zweck ist die Vorverarbeitung für RAGRetrieval-Augmented Generation: dem Modell werden zur Anfrage passende Textstellen aus einer eigenen Wissensquelle beigelegt, damit es daraus antwortet statt nur aus dem Training. Reduziert Halluzinationen und hält Wissen aktuell.Mehr im Wissen →-, Such- und Agenten-Pipelines: Eine zitierfähige, Structured OutputFähigkeit eines Modells, die Antwort in einem festen, maschinenlesbaren Format (z. B. JSON nach Schema) zu liefern – wichtig, wenn Programme die Ausgabe weiterverarbeiten.Mehr im Wissen → lässt sich direkt weiterverarbeiten, statt rohen Fließtext mühsam nachzubereiten. Verfügbar ist OCR 4 über Mistrals API, Amazon SageMaker und Microsoft Foundry – und, für regulierte Branchen entscheidend, als einzelner Self-HostingEin (meist open-weight) Modell auf eigener Hardware oder in der eigenen Cloud betreiben, statt die API eines Anbieters zu nutzen. Bringt Datenhoheit und Kostenkontrolle, erfordert aber eigene Infrastruktur.Mehr im Wissen → Container, sodass vertrauliche Dokumente das eigene Netz nicht verlassen müssen. Der Listenpreis liegt bei 4 $ pro 1 000 Seiten und halbiert sich über die Batch-API auf 2 $.

Belastbarkeit der Zahlen: Den Spitzenplatz auf dem unabhängigen OlmOCRBench (85,20) und den Wert auf OmniDocBench (93,07) berichtet Mistral selbst, OlmOCRBench ist aber ein unabhängiger Benchmark – die Richtung ist damit gestützt. Die plakative „72 %-Win-Rate“ gegen jedes getestete OCR-System stammt dagegen aus Mistrals eigener Annotator-Präferenzstudie und ist als Anbieterangabe zu lesen. Aufgekommen ist das Release bei uns über einen YouTube-Sweep (DE-Kanal Everlast AI, Tier C); die Fakten haben wir an Mistrals Release-Seite und unabhängiger Berichterstattung geprüft, nicht am Video.