DeepReinforce · Ornith

Ornith 1.0

ornith-1.0-397b

Text

SituativSelbst-gerüstetes Open-Source-Agentic-Coding (MIT)

DeepReinforces neue offene Coding-Familie (9B/31B Dense, 35B/397B , MIT), post-trainiert auf Gemma 4 und Qwen 3.5. Kernidee: Das Modell lernt nicht nur Code, sondern sein eigenes RL-Scaffold (Agenten-Harness) selbst. Anbieter-Benchmarks setzen das 397B-Flaggschiff nahe an die proprietäre Spitze ( Verified 82,4 %) – unabhängig aber noch nicht gemessen. Interessant fürs und agentisches Coding; für ein belastbares Urteil fehlen unabhängige Zahlen.

agentisches Coding
Self-Hosting (MIT)
Edge-/IDE-Integration (9B-Variante)

: 262 K
Max. Ausgabe: 65.536 K Token
Preis (Input / Output): k. A. je 1 Mio. Token
Release: 25. Juni 2026

Stärken

Vollständig offene MIT-Lizenz „ohne regionale Grenzen“; alle vier Größen frei auf [[Hugging Face]] (deepreinforce-ai) – vom 9B-Dense für Edge/IDE bis zum 397B-[[MoE]]-Flaggschiff.
Neuartiger Self-Scaffolding-Ansatz: Im Reinforcement Learning lernt das Modell sein eigenes Agenten-Harness – es liest Aufgabe und bisheriges Scaffold, schlägt ein verbessertes vor und lässt höher belohnte Scaffolds automatisch selektieren (statt fest verdrahteter Harness).
Anbieter-Benchmarks setzen das 397B nahe an die proprietäre Spitze ([[SWE-bench Pro|swe-bench]] Verified 82,4 %, hinter Opus 4.8 87,6) – als [[Open-Weight|open-weight]]-Modell konkurrenzfähig im agentischen Coding.

Schwächen

Benchmarks bislang nur anbieter-selbstberichtet (DeepReinforce); keine unabhängige AA-/Vals-Messung – die Spitzen-Claims sind nicht bestätigt.
Reine Text-/Coding-Familie ohne Multimodalität; eng auf Software-Engineering zugeschnitten.
Sehr frisch (Release 25.06.2026); Tooling-Reife, reale Harness-Integration und Reproduzierbarkeit der Self-Scaffolding-Gewinne noch offen.

Typische Einsatzfälle

agentisches Coding (Bugfixing, Refactoring, Repo-Aufgaben)
offener Coding-Modelle (MIT)
Edge-/IDE-Integration mit der 9B-Dense-Variante

Benchmarks im Detail

Kennzahlen aus zitierten Messungen – unabhängige Quellen sind ausgewiesen, Anbieterangaben entsprechend markiert. Werte sind nicht über Skalen hinweg vergleichbar. Wie man Benchmark-Zahlen liest →

SWE-Bench Verified (Ornith-1.0-397B)
82,4 %
(Opus 4.8: 87,6)
AnbieterangabeDeepReinforce – Ornith-1.0-397B Model-Card (Hugging Face), abgerufen 2026-06-27
Terminal-Bench 2.1 / Terminus-2 (Ornith-1.0-397B)
77,5 %
(Opus 4.8: 85; GLM-5.2: 81,0)
AnbieterangabeDeepReinforce – Ornith-1.0-397B Model-Card (Hugging Face), abgerufen 2026-06-27
SWE-Bench Pro (Ornith-1.0-397B)
62,2 %
(Opus 4.8: 69,2)
AnbieterangabeDeepReinforce – Ornith-1.0-397B Model-Card (Hugging Face), abgerufen 2026-06-27
NL2Repo (Ornith-1.0-397B)
48,2 %
AnbieterangabeDeepReinforce – Ornith-1.0-397B Model-Card (Hugging Face), abgerufen 2026-06-27

Einordnung

Familie aus vier Größen – 9B Dense, 31B Dense, 35B (≈3 Mrd. aktive /Token) und 397B – alle post-trainiert auf den offenen Basismodellen Gemma 4 und Qwen 3.5, alle unter MIT-Lizenz auf (deepreinforce-ai). Nutzbarer Kontext 262 144 ; das Modell gibt `<think>`-Reasoning-Blöcke aus und unterstützt natives .Beleg · Primärquelle
Kern-Innovation „Self-Scaffolding“: Statt eines fest gebauten Agenten-Harness behandelt Ornith das Scaffold als lernbar. Im Training liest das Modell Aufgabe + bisheriges Scaffold, schlägt ein verfeinertes vor und erzeugt damit eine Lösungs-Rollout; höher belohnte Scaffolds werden über die Iterationen automatisch mutiert und selektiert. Damit verbessert das Modell nicht nur die Code-Erzeugung, sondern auch die Orchestrierungs-Strategie für Software-Engineering-Aufgaben.Beleg · Sekundärquelle
Konkurrenz-Ausblick: Auf den anbieter-berichteten Zahlen liegt das 397B nahe an der proprietären Spitze (SWE-Bench Verified 82,4 % vs. Opus 4.8 87,6; Terminal-Bench 2.1 77,5 % vs. Opus 4.8 85 und GLM-5.2 81,0). Damit reiht es sich in die Open-Weight-Agentic-Coding-Welle hinter GLM-5.2 ein – anders als GLM-5.2 ist Ornith aber **noch nicht** unabhängig (Artificial Analysis/Vals) gemessen; die Einordnung steht und fällt mit der ersten neutralen Messung.Beleg · Primärquelle

Aus der System-Card

Verdichtete Befunde aus der offiziellen des Anbieters (Primärquelle, ). Fähigkeitswerte sind Anbieterangaben – nicht unabhängig nachgemessen. Card-Stand 2026-06-25.

Fähigkeiten

Coding & Agentik – Laut Card 82,4 auf SWE-Bench Verified, 62,2 auf Pro, 77,5 auf 2.1 (Terminus-2) und 48,2 auf NL2Repo (Variante 397B) – anbieter-selbstberichtet, unabhängig noch nicht gemessen.
Self-Scaffolding – Zwei-Stufen-RL: Das Modell liest Aufgabe + bisheriges Scaffold, schlägt ein verbessertes vor und erzeugt damit eine Lösung; höher belohnte Scaffolds werden automatisch selektiert. Lernt so seine eigene Orchestrierungs-Strategie, nicht nur Code.
Kontext & Tool-Use – 262 144 Kontext; gibt `<think>`-Reasoning-Blöcke aus, natives . Reines Text-/Coding-Modell ohne Multimodalität.

Verhalten & Sicherheit

Architektur – Familie aus 9B Dense, 31B Dense, 35B (≈3 Mrd. aktive /Token) und 397B , post-trainiert auf Gemma 4 und Qwen 3.5.
Lizenz – MIT-Open-Source „ohne regionale Grenzen“; alle Checkpoints frei auf (deepreinforce-ai).

Alle Benchmark-Werte sind anbieter-selbstberichtet (DeepReinforce-Model-Card, Cherry-Picking-Vorbehalt). Es liegt noch keine unabhängige Messung (Artificial Analysis/Vals.ai) vor – Stand/Release 2026-06-25.

DeepReinforce – Ornith-1.0-397B (Model-Card, Hugging Face)· Primärquelle, abgerufen 2026-06-27

Stimmen aus der Öffentlichkeit

Subjektive Einschätzungen Dritter – keine belegten Fakten, jeweils verlinkt.

positivOrdnet Ornith-1.0 als open-source-Coding-Familie ein, die „ihre eigenen RL-Scaffolds lernt“: Das Modell schreibe nicht nur Code, sondern auch das Harness, mit dem es Software-Probleme löst – ein Bruch mit fest verdrahteten Agenten-Gerüsten.MarkTechPost – DeepReinforce Releases Ornith-1.0 · Sekundärquelle, Juni 2026

ℹ️ DeepReinforce-Release 25.06.2026: offene Agentic-Coding-Familie Ornith 1.0 (9B/31B Dense, 35B/397B ), MIT, auf (deepreinforce-ai). Kernidee „Self-Scaffolding“: das Modell lernt im RL sein eigenes Agenten-Harness. Benchmarks (SWE-Bench Verified 82,4 %, Terminal-Bench 2.1 77,5 %) sind Anbieterangaben → abgewertet, unabhängig noch nicht gemessen; daher kein `kennzahlen`-Eintrag (AA-Achse leer) und kein `geprueft`.