Alle Depeschen

DepescheModelleneu

Baidu „Unlimited OCR“: quelloffenes Dokumentmodell liest dutzende Seiten in einem Durchlauf

Baidu hat mit „Unlimited OCR“ (Paper „Unlimited OCR Works“, arXiv 2606.23050, eingereicht am 22. Juni 2026) ein quelloffenes Dokument-KI-Modell veröffentlicht, das dutzende Seiten in einem einzigen Forward-Pass verarbeitet – bisherige Systeme schaffen meist kaum mehr als zehn. Kern ist eine „Reference Sliding Window Attention“ (R-SWA), die den KV-Cache über die gesamte Dekodierung konstant hält, statt ihn mit der Seitenzahl anwachsen zu lassen. Code und Gewichte liegen unter MIT-Lizenz auf GitHub und Hugging Face; das Modell baut auf DeepSeek OCR auf.

Baidus „Unlimited OCR“ ist ein spezialisiertes Dokument-KI-Modell, das ganze Dokumente statt einzelner Seiten in einem Rutsch transkribiert. Möglich macht das die im Paper beschriebene „Reference Sliding Window Attention“ (R-SWA): Bei der Textausgabe greift das Modell nur auf die zuletzt erzeugten Zeichen (rund 128) plus feste Bildinformationen zu, sodass der KV-Cache über die gesamte Dekodierung konstant bleibt, statt mit der Seitenzahl linear zu wachsen – der bisherige Grund, warum vergleichbare Systeme nach wenigen Seiten an die Speichergrenze stoßen.

Zu den vom Autorenteam berichteten Zahlen: eine Genauigkeit von 93,92 % auf dem OmniDocBench v1.6 sowie ein um etwa 12,7 % höherer Durchsatz als DeepSeek OCR (rund 5.580 gegenüber 4.951 Token pro Sekunde), bei einem Modell mit etwa 3 Milliarden Parametern, von denen rund 500 Millionen aktiv sind. Diese Werte stammen aus der Veröffentlichung selbst und sind unabhängig noch nicht bestätigt.

Verfügbarkeit: Code und Modellgewichte stehen unter MIT-Lizenz auf GitHub (baidu/Unlimited-OCR) und Hugging Face bereit und laufen über Transformers, vLLM und SGLang; eine Demo liegt in den Hugging Face Spaces. Das Modell baut ausdrücklich auf DeepSeek OCR auf und reiht sich in die von uns beobachtete Welle strukturierter Dokument-OCR-Modelle ein, zu der auch Mistral OCR 4 gehört.