← Alle Modelle

DeepReinforce · Ornith

Ornith 1.0

ornith-1.0-397b

open-weightModell, dessen trainierte Gewichte öffentlich herunterladbar sind, sodass man es selbst (lokal oder auf eigener Hardware) betreiben kann. Nicht zwingend vollständig quelloffen – die Lizenz bestimmt die erlaubte Nutzung.Mehr im Wissen →Text

SituativSelbst-gerüstetes Open-Source-Agentic-Coding (MIT)

DeepReinforces neue offene Coding-Familie (9B/31B Dense, 35B/397B MoE (Mixture of Experts)Architektur, bei der je Anfrage nur ein Teil des Modells („Experten“) aktiv wird. So hat das Modell sehr viele Gesamt-Parameter, rechnet aber nur mit wenigen aktiven – das spart Rechenzeit.Mehr im Wissen →, MIT), post-trainiert auf Gemma 4 und Qwen 3.5. Kernidee: Das Modell lernt nicht nur Code, sondern sein eigenes RL-Scaffold (Agenten-Harness) selbst. Anbieter-Benchmarks setzen das 397B-Flaggschiff nahe an die proprietäre Spitze (SWE-benchCoding-Benchmark, der Modelle echte GitHub-Issues in realen Repositories lösen lässt; gewertet wird, ob der erzeugte Patch die Tests besteht. Verbreitet, aber zunehmend durch Trainings-Kontamination belastet.Mehr im Wissen → Verified 82,4 %) – unabhängig aber noch nicht gemessen. Interessant fürs Self-HostingEin (meist open-weight) Modell auf eigener Hardware oder in der eigenen Cloud betreiben, statt die API eines Anbieters zu nutzen. Bringt Datenhoheit und Kostenkontrolle, erfordert aber eigene Infrastruktur.Mehr im Wissen → und agentisches Coding; für ein belastbares Urteil fehlen unabhängige Zahlen.

  • agentisches Coding
  • Self-Hosting (MIT)
  • Edge-/IDE-Integration (9B-Variante)
KontextfensterDie maximale Textmenge (in Tokens), die ein Modell pro Anfrage gleichzeitig „im Blick“ hat – Eingabe plus bisheriger Verlauf. Ist es voll, fällt Älteres aus dem Kontext.Mehr im Wissen →
262 KTokenDie kleinste Verarbeitungseinheit eines Sprachmodells – ein Wortstück, kein ganzes Wort. Faustregel: rund 1.000 Tokens entsprechen grob 750 deutschen Wörtern. Preise und Kontextlängen werden in Tokens gerechnet.Mehr im Wissen →
Max. Ausgabe
65.536 K Token
Preis (Input / Output)
k. A. je 1 Mio. Token
Release
25. Juni 2026

Stärken

  • Vollständig offene MIT-Lizenz „ohne regionale Grenzen“; alle vier Größen frei auf [[Hugging Face]] (deepreinforce-ai) – vom 9B-Dense für Edge/IDE bis zum 397B-[[MoE]]-Flaggschiff.
  • Neuartiger Self-Scaffolding-Ansatz: Im Reinforcement Learning lernt das Modell sein eigenes Agenten-Harness – es liest Aufgabe und bisheriges Scaffold, schlägt ein verbessertes vor und lässt höher belohnte Scaffolds automatisch selektieren (statt fest verdrahteter Harness).
  • Anbieter-Benchmarks setzen das 397B nahe an die proprietäre Spitze ([[SWE-bench Pro|swe-bench]] Verified 82,4 %, hinter Opus 4.8 87,6) – als [[Open-Weight|open-weight]]-Modell konkurrenzfähig im agentischen Coding.

Schwächen

  • Benchmarks bislang nur anbieter-selbstberichtet (DeepReinforce); keine unabhängige AA-/Vals-Messung – die Spitzen-Claims sind nicht bestätigt.
  • Reine Text-/Coding-Familie ohne Multimodalität; eng auf Software-Engineering zugeschnitten.
  • Sehr frisch (Release 25.06.2026); Tooling-Reife, reale Harness-Integration und Reproduzierbarkeit der Self-Scaffolding-Gewinne noch offen.

Typische Einsatzfälle

  • agentisches Coding (Bugfixing, Refactoring, Repo-Aufgaben)
  • Self-HostingEin (meist open-weight) Modell auf eigener Hardware oder in der eigenen Cloud betreiben, statt die API eines Anbieters zu nutzen. Bringt Datenhoheit und Kostenkontrolle, erfordert aber eigene Infrastruktur.Mehr im Wissen → offener Coding-Modelle (MIT)
  • Edge-/IDE-Integration mit der 9B-Dense-Variante

Benchmarks im Detail

Kennzahlen aus zitierten Messungen – unabhängige Quellen sind ausgewiesen, Anbieterangaben entsprechend markiert. Werte sind nicht über Skalen hinweg vergleichbar. Wie man Benchmark-Zahlen liest →

  • SWE-Bench Verified (Ornith-1.0-397B)

    82,4 %

    (Opus 4.8: 87,6)

    AnbieterangabeDeepReinforce – Ornith-1.0-397B Model-Card (Hugging Face), abgerufen 2026-06-27

  • Terminal-Bench 2.1 / Terminus-2 (Ornith-1.0-397B)

    77,5 %

    (Opus 4.8: 85; GLM-5.2: 81,0)

    AnbieterangabeDeepReinforce – Ornith-1.0-397B Model-Card (Hugging Face), abgerufen 2026-06-27

  • SWE-Bench Pro (Ornith-1.0-397B)

    62,2 %

    (Opus 4.8: 69,2)

    AnbieterangabeDeepReinforce – Ornith-1.0-397B Model-Card (Hugging Face), abgerufen 2026-06-27

  • NL2Repo (Ornith-1.0-397B)

    48,2 %

    AnbieterangabeDeepReinforce – Ornith-1.0-397B Model-Card (Hugging Face), abgerufen 2026-06-27

Einordnung

  • Familie aus vier Größen – 9B Dense, 31B Dense, 35B MoE (Mixture of Experts)Architektur, bei der je Anfrage nur ein Teil des Modells („Experten“) aktiv wird. So hat das Modell sehr viele Gesamt-Parameter, rechnet aber nur mit wenigen aktiven – das spart Rechenzeit.Mehr im Wissen → (≈3 Mrd. aktive ParameterDie im Training gelernten „Stellschrauben“ eines Modells (gezählt in Milliarden). Mehr Parameter heißt grob mehr Kapazität, aber auch mehr Rechen- und Speicherbedarf – und sagt allein wenig über die Qualität.Mehr im Wissen →/Token) und 397B MoE (Mixture of Experts)Architektur, bei der je Anfrage nur ein Teil des Modells („Experten“) aktiv wird. So hat das Modell sehr viele Gesamt-Parameter, rechnet aber nur mit wenigen aktiven – das spart Rechenzeit.Mehr im Wissen → – alle post-trainiert auf den offenen Basismodellen Gemma 4 und Qwen 3.5, alle unter MIT-Lizenz auf Hugging FaceDie zentrale Plattform, auf der offene KI-Modelle (ihre Gewichte) samt Spezifikation veröffentlicht und heruntergeladen werden – die „GitHub-Drehscheibe“ der open-weight-Szene.Mehr im Wissen → (deepreinforce-ai). Nutzbarer Kontext 262 144 TokenDie kleinste Verarbeitungseinheit eines Sprachmodells – ein Wortstück, kein ganzes Wort. Faustregel: rund 1.000 Tokens entsprechen grob 750 deutschen Wörtern. Preise und Kontextlängen werden in Tokens gerechnet.Mehr im Wissen →; das Modell gibt `<think>`-Reasoning-Blöcke aus und unterstützt natives Tool-CallingFähigkeit eines Modells, strukturiert externe Werkzeuge oder Funktionen aufzurufen (Suche, Code ausführen, APIs) und deren Ergebnisse weiterzuverwenden. Die Grundlage für Agenten.Mehr im Wissen →.Beleg · Primärquelle
  • Kern-Innovation „Self-Scaffolding“: Statt eines fest gebauten Agenten-Harness behandelt Ornith das Scaffold als lernbar. Im Training liest das Modell Aufgabe + bisheriges Scaffold, schlägt ein verfeinertes vor und erzeugt damit eine Lösungs-Rollout; höher belohnte Scaffolds werden über die Iterationen automatisch mutiert und selektiert. Damit verbessert das Modell nicht nur die Code-Erzeugung, sondern auch die Orchestrierungs-Strategie für Software-Engineering-Aufgaben.Beleg · Sekundärquelle
  • Konkurrenz-Ausblick: Auf den anbieter-berichteten Zahlen liegt das 397B nahe an der proprietären Spitze (SWE-Bench Verified 82,4 % vs. Opus 4.8 87,6; Terminal-Bench 2.1 77,5 % vs. Opus 4.8 85 und GLM-5.2 81,0). Damit reiht es sich in die Open-Weight-Agentic-Coding-Welle hinter GLM-5.2 ein – anders als GLM-5.2 ist Ornith aber **noch nicht** unabhängig (Artificial Analysis/Vals) gemessen; die Einordnung steht und fällt mit der ersten neutralen Messung.Beleg · Primärquelle

Aus der System-Card

Verdichtete Befunde aus der offiziellen System-CardDas offizielle Begleitdokument eines Anbieters zu einem Modell (auch „Model Card“): Fähigkeiten, Grenzen, Sicherheitsbewertung. Primärquelle – die Fähigkeitsangaben darin sind aber Eigenangaben, nicht unabhängig gemessen.Mehr im Wissen → des Anbieters (Primärquelle, Tier (A/B/C)Verlässlichkeits-Stufe einer Quelle in der KI-Depesche: A = Primärquelle (z. B. offizielle Doku), B = solide Sekundärquelle, C = subjektiv/Einzelstimme. Steuert, wie stark eine Aussage gewichtet wird.Mehr im Wissen →). Fähigkeitswerte sind Anbieterangaben – nicht unabhängig nachgemessen. Card-Stand 2026-06-25.

Fähigkeiten

  • Coding & AgentikLaut Card 82,4 auf SWE-Bench Verified, 62,2 auf SWE-benchCoding-Benchmark, der Modelle echte GitHub-Issues in realen Repositories lösen lässt; gewertet wird, ob der erzeugte Patch die Tests besteht. Verbreitet, aber zunehmend durch Trainings-Kontamination belastet.Mehr im Wissen → Pro, 77,5 auf Terminal-BenchAusführungsbasierter Benchmark (0–100 %): das Modell löst echte Shell-/Terminal-Aufgaben in einer Sandbox, gewertet wird, ob das Ergebnis wirklich funktioniert. Dadurch kontaminationsärmer als reine Wissensquizze.Mehr im Wissen → 2.1 (Terminus-2) und 48,2 auf NL2Repo (Variante 397B) – anbieter-selbstberichtet, unabhängig noch nicht gemessen.
  • Self-ScaffoldingZwei-Stufen-RL: Das Modell liest Aufgabe + bisheriges Scaffold, schlägt ein verbessertes vor und erzeugt damit eine Lösung; höher belohnte Scaffolds werden automatisch selektiert. Lernt so seine eigene Orchestrierungs-Strategie, nicht nur Code.
  • Kontext & Tool-Use262 144 TokenDie kleinste Verarbeitungseinheit eines Sprachmodells – ein Wortstück, kein ganzes Wort. Faustregel: rund 1.000 Tokens entsprechen grob 750 deutschen Wörtern. Preise und Kontextlängen werden in Tokens gerechnet.Mehr im Wissen → Kontext; gibt `<think>`-Reasoning-Blöcke aus, natives Tool-CallingFähigkeit eines Modells, strukturiert externe Werkzeuge oder Funktionen aufzurufen (Suche, Code ausführen, APIs) und deren Ergebnisse weiterzuverwenden. Die Grundlage für Agenten.Mehr im Wissen →. Reines Text-/Coding-Modell ohne Multimodalität.

Verhalten & Sicherheit

  • ArchitekturFamilie aus 9B Dense, 31B Dense, 35B MoE (Mixture of Experts)Architektur, bei der je Anfrage nur ein Teil des Modells („Experten“) aktiv wird. So hat das Modell sehr viele Gesamt-Parameter, rechnet aber nur mit wenigen aktiven – das spart Rechenzeit.Mehr im Wissen → (≈3 Mrd. aktive ParameterDie im Training gelernten „Stellschrauben“ eines Modells (gezählt in Milliarden). Mehr Parameter heißt grob mehr Kapazität, aber auch mehr Rechen- und Speicherbedarf – und sagt allein wenig über die Qualität.Mehr im Wissen →/Token) und 397B MoE (Mixture of Experts)Architektur, bei der je Anfrage nur ein Teil des Modells („Experten“) aktiv wird. So hat das Modell sehr viele Gesamt-Parameter, rechnet aber nur mit wenigen aktiven – das spart Rechenzeit.Mehr im Wissen →, post-trainiert auf Gemma 4 und Qwen 3.5.
  • LizenzMIT-Open-Source „ohne regionale Grenzen“; alle Checkpoints frei auf Hugging FaceDie zentrale Plattform, auf der offene KI-Modelle (ihre Gewichte) samt Spezifikation veröffentlicht und heruntergeladen werden – die „GitHub-Drehscheibe“ der open-weight-Szene.Mehr im Wissen → (deepreinforce-ai).

Alle Benchmark-Werte sind anbieter-selbstberichtet (DeepReinforce-Model-Card, Cherry-Picking-Vorbehalt). Es liegt noch keine unabhängige Messung (Artificial Analysis/Vals.ai) vor – Stand/Release 2026-06-25.

DeepReinforce – Ornith-1.0-397B (Model-Card, Hugging Face)· Primärquelle, abgerufen 2026-06-27

Stimmen aus der Öffentlichkeit

Subjektive Einschätzungen Dritter – keine belegten Fakten, jeweils verlinkt.

ℹ️ DeepReinforce-Release 25.06.2026: offene Agentic-Coding-Familie Ornith 1.0 (9B/31B Dense, 35B/397B MoE (Mixture of Experts)Architektur, bei der je Anfrage nur ein Teil des Modells („Experten“) aktiv wird. So hat das Modell sehr viele Gesamt-Parameter, rechnet aber nur mit wenigen aktiven – das spart Rechenzeit.Mehr im Wissen →), MIT, auf Hugging FaceDie zentrale Plattform, auf der offene KI-Modelle (ihre Gewichte) samt Spezifikation veröffentlicht und heruntergeladen werden – die „GitHub-Drehscheibe“ der open-weight-Szene.Mehr im Wissen → (deepreinforce-ai). Kernidee „Self-Scaffolding“: das Modell lernt im RL sein eigenes Agenten-Harness. Benchmarks (SWE-Bench Verified 82,4 %, Terminal-Bench 2.1 77,5 %) sind Anbieterangaben → abgewertet, unabhängig noch nicht gemessen; daher kein `kennzahlen`-Eintrag (AA-Achse leer) und kein `geprueft`.