DeepReinforce · Ornith
Ornith 1.0
ornith-1.0-397b
SituativSelbst-gerüstetes Open-Source-Agentic-Coding (MIT)
- agentisches Coding
- Self-Hosting (MIT)
- Edge-/IDE-Integration (9B-Variante)
KontextfensterDie maximale Textmenge (in Tokens), die ein Modell pro Anfrage gleichzeitig „im Blick“ hat – Eingabe plus bisheriger Verlauf. Ist es voll, fällt Älteres aus dem Kontext.Mehr im Wissen → - 262 K
TokenDie kleinste Verarbeitungseinheit eines Sprachmodells – ein Wortstück, kein ganzes Wort. Faustregel: rund 1.000 Tokens entsprechen grob 750 deutschen Wörtern. Preise und Kontextlängen werden in Tokens gerechnet.Mehr im Wissen → - Max. Ausgabe
- 65.536 K Token
- Preis (Input / Output)
- k. A. je 1 Mio. Token
- Release
- 25. Juni 2026
Stärken
- Vollständig offene MIT-Lizenz „ohne regionale Grenzen“; alle vier Größen frei auf [[Hugging Face]] (deepreinforce-ai) – vom 9B-Dense für Edge/IDE bis zum 397B-[[MoE]]-Flaggschiff.
- Neuartiger Self-Scaffolding-Ansatz: Im Reinforcement Learning lernt das Modell sein eigenes Agenten-Harness – es liest Aufgabe und bisheriges Scaffold, schlägt ein verbessertes vor und lässt höher belohnte Scaffolds automatisch selektieren (statt fest verdrahteter Harness).
- Anbieter-Benchmarks setzen das 397B nahe an die proprietäre Spitze ([[SWE-bench Pro|swe-bench]] Verified 82,4 %, hinter Opus 4.8 87,6) – als [[Open-Weight|open-weight]]-Modell konkurrenzfähig im agentischen Coding.
Schwächen
Benchmarks bislang nur anbieter-selbstberichtet (DeepReinforce); keine unabhängige AA-/Vals-Messung – die Spitzen-Claims sind nicht bestätigt. Reine Text-/Coding-Familie ohne Multimodalität; eng auf Software-Engineering zugeschnitten. Sehr frisch (Release 25.06.2026); Tooling-Reife, reale Harness-Integration und Reproduzierbarkeit der Self-Scaffolding-Gewinne noch offen.
Typische Einsatzfälle
agentisches Coding (Bugfixing, Refactoring, Repo-Aufgaben) Self-HostingEin (meist open-weight) Modell auf eigener Hardware oder in der eigenen Cloud betreiben, statt die API eines Anbieters zu nutzen. Bringt Datenhoheit und Kostenkontrolle, erfordert aber eigene Infrastruktur.Mehr im Wissen → offener Coding-Modelle (MIT)Edge-/IDE-Integration mit der 9B-Dense-Variante
Benchmarks im Detail
Kennzahlen aus zitierten Messungen – unabhängige Quellen sind ausgewiesen, Anbieterangaben entsprechend markiert. Werte sind nicht über Skalen hinweg vergleichbar. Wie man Benchmark-Zahlen liest →
SWE-Bench Verified (Ornith-1.0-397B)
82,4 %
(Opus 4.8: 87,6)
AnbieterangabeDeepReinforce – Ornith-1.0-397B Model-Card (Hugging Face), abgerufen 2026-06-27
Terminal-Bench 2.1 / Terminus-2 (Ornith-1.0-397B)
77,5 %
(Opus 4.8: 85; GLM-5.2: 81,0)
AnbieterangabeDeepReinforce – Ornith-1.0-397B Model-Card (Hugging Face), abgerufen 2026-06-27
SWE-Bench Pro (Ornith-1.0-397B)
62,2 %
(Opus 4.8: 69,2)
AnbieterangabeDeepReinforce – Ornith-1.0-397B Model-Card (Hugging Face), abgerufen 2026-06-27
NL2Repo (Ornith-1.0-397B)
48,2 %
AnbieterangabeDeepReinforce – Ornith-1.0-397B Model-Card (Hugging Face), abgerufen 2026-06-27
Einordnung
Familie aus vier Größen – 9B Dense, 31B Dense, 35B Beleg · PrimärquelleMoE (Mixture of Experts)Architektur, bei der je Anfrage nur ein Teil des Modells („Experten“) aktiv wird. So hat das Modell sehr viele Gesamt-Parameter, rechnet aber nur mit wenigen aktiven – das spart Rechenzeit.Mehr im Wissen → (≈3 Mrd. aktiveParameterDie im Training gelernten „Stellschrauben“ eines Modells (gezählt in Milliarden). Mehr Parameter heißt grob mehr Kapazität, aber auch mehr Rechen- und Speicherbedarf – und sagt allein wenig über die Qualität.Mehr im Wissen → /Token) und 397BMoE (Mixture of Experts)Architektur, bei der je Anfrage nur ein Teil des Modells („Experten“) aktiv wird. So hat das Modell sehr viele Gesamt-Parameter, rechnet aber nur mit wenigen aktiven – das spart Rechenzeit.Mehr im Wissen → – alle post-trainiert auf den offenen Basismodellen Gemma 4 und Qwen 3.5, alle unter MIT-Lizenz aufHugging FaceDie zentrale Plattform, auf der offene KI-Modelle (ihre Gewichte) samt Spezifikation veröffentlicht und heruntergeladen werden – die „GitHub-Drehscheibe“ der open-weight-Szene.Mehr im Wissen → (deepreinforce-ai). Nutzbarer Kontext 262 144TokenDie kleinste Verarbeitungseinheit eines Sprachmodells – ein Wortstück, kein ganzes Wort. Faustregel: rund 1.000 Tokens entsprechen grob 750 deutschen Wörtern. Preise und Kontextlängen werden in Tokens gerechnet.Mehr im Wissen → ; das Modell gibt `<think>`-Reasoning-Blöcke aus und unterstützt nativesTool-CallingFähigkeit eines Modells, strukturiert externe Werkzeuge oder Funktionen aufzurufen (Suche, Code ausführen, APIs) und deren Ergebnisse weiterzuverwenden. Die Grundlage für Agenten.Mehr im Wissen → .Kern-Innovation „Self-Scaffolding“: Statt eines fest gebauten Agenten-Harness behandelt Ornith das Scaffold als lernbar. Im Training liest das Modell Aufgabe + bisheriges Scaffold, schlägt ein verfeinertes vor und erzeugt damit eine Lösungs-Rollout; höher belohnte Scaffolds werden über die Iterationen automatisch mutiert und selektiert. Damit verbessert das Modell nicht nur die Code-Erzeugung, sondern auch die Orchestrierungs-Strategie für Software-Engineering-Aufgaben. Beleg · SekundärquelleKonkurrenz-Ausblick: Auf den anbieter-berichteten Zahlen liegt das 397B nahe an der proprietären Spitze (SWE-Bench Verified 82,4 % vs. Opus 4.8 87,6; Terminal-Bench 2.1 77,5 % vs. Opus 4.8 85 und GLM-5.2 81,0). Damit reiht es sich in die Open-Weight-Agentic-Coding-Welle hinter GLM-5.2 ein – anders als GLM-5.2 ist Ornith aber **noch nicht** unabhängig (Artificial Analysis/Vals) gemessen; die Einordnung steht und fällt mit der ersten neutralen Messung. Beleg · Primärquelle
Aus der System-Card
Verdichtete Befunde aus der offiziellen
Fähigkeiten
- Coding & Agentik –
Laut Card 82,4 auf SWE-Bench Verified, 62,2 auf SWE-benchCoding-Benchmark, der Modelle echte GitHub-Issues in realen Repositories lösen lässt; gewertet wird, ob der erzeugte Patch die Tests besteht. Verbreitet, aber zunehmend durch Trainings-Kontamination belastet.Mehr im Wissen → Pro, 77,5 aufTerminal-BenchAusführungsbasierter Benchmark (0–100 %): das Modell löst echte Shell-/Terminal-Aufgaben in einer Sandbox, gewertet wird, ob das Ergebnis wirklich funktioniert. Dadurch kontaminationsärmer als reine Wissensquizze.Mehr im Wissen → 2.1 (Terminus-2) und 48,2 auf NL2Repo (Variante 397B) – anbieter-selbstberichtet, unabhängig noch nicht gemessen. - Self-Scaffolding –
Zwei-Stufen-RL: Das Modell liest Aufgabe + bisheriges Scaffold, schlägt ein verbessertes vor und erzeugt damit eine Lösung; höher belohnte Scaffolds werden automatisch selektiert. Lernt so seine eigene Orchestrierungs-Strategie, nicht nur Code. - Kontext & Tool-Use –
262 144 TokenDie kleinste Verarbeitungseinheit eines Sprachmodells – ein Wortstück, kein ganzes Wort. Faustregel: rund 1.000 Tokens entsprechen grob 750 deutschen Wörtern. Preise und Kontextlängen werden in Tokens gerechnet.Mehr im Wissen → Kontext; gibt `<think>`-Reasoning-Blöcke aus, nativesTool-CallingFähigkeit eines Modells, strukturiert externe Werkzeuge oder Funktionen aufzurufen (Suche, Code ausführen, APIs) und deren Ergebnisse weiterzuverwenden. Die Grundlage für Agenten.Mehr im Wissen → . Reines Text-/Coding-Modell ohne Multimodalität.
Verhalten & Sicherheit
- Architektur –
Familie aus 9B Dense, 31B Dense, 35B MoE (Mixture of Experts)Architektur, bei der je Anfrage nur ein Teil des Modells („Experten“) aktiv wird. So hat das Modell sehr viele Gesamt-Parameter, rechnet aber nur mit wenigen aktiven – das spart Rechenzeit.Mehr im Wissen → (≈3 Mrd. aktiveParameterDie im Training gelernten „Stellschrauben“ eines Modells (gezählt in Milliarden). Mehr Parameter heißt grob mehr Kapazität, aber auch mehr Rechen- und Speicherbedarf – und sagt allein wenig über die Qualität.Mehr im Wissen → /Token) und 397BMoE (Mixture of Experts)Architektur, bei der je Anfrage nur ein Teil des Modells („Experten“) aktiv wird. So hat das Modell sehr viele Gesamt-Parameter, rechnet aber nur mit wenigen aktiven – das spart Rechenzeit.Mehr im Wissen → , post-trainiert auf Gemma 4 und Qwen 3.5. - Lizenz –
MIT-Open-Source „ohne regionale Grenzen“; alle Checkpoints frei auf Hugging FaceDie zentrale Plattform, auf der offene KI-Modelle (ihre Gewichte) samt Spezifikation veröffentlicht und heruntergeladen werden – die „GitHub-Drehscheibe“ der open-weight-Szene.Mehr im Wissen → (deepreinforce-ai).
DeepReinforce – Ornith-1.0-397B (Model-Card, Hugging Face)· Primärquelle, abgerufen 2026-06-27
Stimmen aus der Öffentlichkeit
Subjektive Einschätzungen Dritter – keine belegten Fakten, jeweils verlinkt.
- positivOrdnet Ornith-1.0 als open-source-Coding-Familie ein, die „ihre eigenen RL-Scaffolds lernt“: Das Modell schreibe nicht nur Code, sondern auch das Harness, mit dem es Software-Probleme löst – ein Bruch mit fest verdrahteten Agenten-Gerüsten.MarkTechPost – DeepReinforce Releases Ornith-1.0 · Sekundärquelle, Juni 2026
ℹ️