Modelle27. Juni 2026neu

Ornith 1.0: offene Coding-Modelle, die ihr eigenes Agenten-Gerüst lernen

DeepReinforce hat am 25. Juni 2026 Ornith 1.0 veröffentlicht – eine offene (MIT) Familie von Agentic-Coding-Modellen in vier Größen (9B/31B Dense, 35B/397B Mixture-of-Experts), post-trainiert auf den Basismodellen Gemma 4 und Qwen 3.5. Die Besonderheit: Im Reinforcement Learning lernt das Modell nicht nur Code, sondern auch sein eigenes „Scaffold“ – das Agenten-Harness, mit dem es Software-Aufgaben orchestriert. Anbieter-eigene Benchmarks setzen das 397B-Flaggschiff nahe an die proprietäre Spitze (SWE-Bench Verified 82,4 %); eine unabhängige Messung steht noch aus.

DeepReinforce hat am 25. Juni 2026 Ornith 1.0 vorgestellt – eine Familie offener Modelle speziell fürs agentische Coding, in vier Größen: 9B Dense, 31B Dense, 35B Mixture-of-Experts (rund 3 Mrd. aktive Parameter pro Token) und 397B Mixture-of-Experts. Alle Checkpoints stehen unter MIT-Lizenz „ohne regionale Grenzen“ frei auf Hugging Face (Organisation deepreinforce-ai) und sind auf den offenen Basismodellen Gemma 4 und Qwen 3.5 post-trainiert. Der nutzbare Kontext beträgt 262 144 Token; die Modelle geben `<think>`-Reasoning-Blöcke aus und unterstützen natives Tool-Calling.

Das namensgebende Merkmal ist „Self-Scaffolding“: In klassischen Agenten-Systemen ist das Harness – die feste Schleife aus Planen, Werkzeug-Aufrufen und Prüfen – von Menschen gebaut. Ornith behandelt dieses Gerüst stattdessen als lernbar. Im Reinforcement-Learning-Training liest das Modell die Aufgabe samt seinem bisherigen Scaffold, schlägt ein verfeinertes vor und erzeugt damit eine Lösung; höher belohnte Scaffolds werden über die Trainings-Iterationen automatisch mutiert und selektiert. Das Modell verbessert so nicht nur die Code-Erzeugung, sondern auch die Orchestrierungs-Strategie, mit der es Software-Engineering-Probleme angeht.

Zur Leistung nennt DeepReinforce für das 397B-Flaggschiff 82,4 % auf SWE-Bench Verified, 62,2 % auf SWE-Bench Pro, 77,5 % auf Terminal-Bench 2.1 (Terminus-2) und 48,2 % auf NL2Repo. Im Anbieter-Vergleich liegt das damit nahe an, aber unter der proprietären Spitze: Claude Opus 4.8 wird mit 87,6 % (SWE-Bench Verified), 69,2 % (SWE-Bench Pro) und 85 (Terminal-Bench) geführt, GLM-5.2 mit 81,0 auf Terminal-Bench. Wichtig: Diese Zahlen sind anbieter-selbstberichtet (Model-Card) und damit dem üblichen Cherry-Picking-Vorbehalt unterworfen – eine unabhängige Messung durch Artificial Analysis oder Vals.ai liegt für das erst zwei Tage alte Modell noch nicht vor.

Einordnung: Ornith 1.0 reiht sich in die Open-Weight-Agentic-Coding-Welle hinter GLM-5.2 ein – frei self-hostbar, MIT-lizenziert, vom 9B-Dense für Edge-/IDE-Integration bis zum 397B-Flaggschiff. Anders als bei GLM-5.2 fehlt bislang die unabhängige Bestätigung; die Einordnung steht und fällt mit der ersten neutralen Messung. Der durchgehend interessante Beitrag ist weniger die Punktzahl als die Idee, das Agenten-Gerüst mitzulernen statt es fest zu verdrahten. Der Katalog-Eintrag im Modell-Verzeichnis ordnet Ornith entsprechend als „situativ“ ein (interessant fürs Self-Hosting und agentische Coding, belastbares Urteil noch offen).

Aufmerksam wurde KI-Depesche durch den unabhängigen YouTube-Kanal Sam Witteveen (Google Developer Expert), der das Release am 26. Juni in „Introducing Ornith 1.0 – Agentic Coding LLMs“ aufgriff; die Fakten dieser Depesche stammen jedoch nicht aus dem Video, sondern aus der primären Model-Card und unabhängiger Fachpresse.