Ornith 1.0 35B Q8_0 (GGUF)

Ornith 1.0 35B ist DeepReinforces RL-Fine-Tune auf Gemma 4 und Qwen 3.5 unter MIT-Lizenz, ein agentisches Coding-Modell, das seine eigene Arbeitsweise im Training mitlernt. Das Open-Weight-MoE bündelt 35 Mrd. Gesamt- bei nur etwa 3 Mrd. aktiven Parametern pro Token und liefert damit Workstation-Leistung. 262.144 Tokens Kontext, natives Thinking und Tool-Calling ergänzen das Profil, Q8-Quantisierung bringt das Modell nahe an Vollpräzision.

DeepReinforce Version 1.0 Kommerzielle Nutzung erlaubt MoE 35 B (3 B aktiv) 262 K Context

Open Weights
Workstation
SPRK
Text
Interactive

Sovereign Risk: LOW DeepReinforce ist eine US-basierte RL-Forschungsorganisation. Das Modell ist unter MIT-Lizenz ohne regionale Einschränkungen auf Hugging Face verfügbar. Kein chinesisches NSL-Risiko, kein US-CLOUD-Act-Risiko für Gewichte (Open-Weight-Modell, lokal betreibbar). Einziger Vorbehalt: die Basis-Architektur (Qwen 3.5 + Gemma 4) stammt von chinesischen und US-amerikanischen Organisationen.

Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

Name	P1	P2	Combined
EU License Research	95	40	62
HTTP Fetch & Extract	80	60	70
Tool Failure Handling (404)	80	80	80
Web Search & Tool Selection	100	80	91
URL Construction & Fetch	80	60	70
Multilingual Search & Synthesis	100	40	70

Name

Combined

EU License Research

HTTP Fetch & Extract

Tool Failure Handling (404)

Web Search & Tool Selection

100

URL Construction & Fetch

Multilingual Search & Synthesis

100

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

Tool Call Valid: Nein

Retry: Nicht erforderlich

Halluzination: Nicht erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1: 1.48; First Request

MCP: 0.95; Protocol Latency

Synthesis: 10.14; Response Generation

Total: 75.46; Sum of All Phases

Token: 11499; Input + Output

Cost: $0; Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Deployment-Urteil

Bedingt deploy, weil das Modell stark in der Tool-Ausführung ist, aber die Synthesetreue für produktive Antwortschichten noch zu unzuverlässig bleibt. Der kombinierte Eindruck ist gut, aber ein invalider Tool-Call verhindert ein uneingeschränktes Vertrauensurteil für autonome MCP-Pipelines.

Tool-Execution-Profil

Ornith 1.0 35B zeigt echte Werkzeugintelligenz statt bloßem Musterfolgen. Beim Web Search & Tool Selection-Test erkennt es ohne expliziten Hinweis korrekt, dass erst gesucht und nicht direkt gefetcht werden muss. Das ist ein starkes Signal für dynamische Tool-Pipelines. Beim URL-Construction-Test konstruiert es die Ziel-URL brauchbar, aber nicht präzise genug für deterministische Pipelines. Genau dort liegt die operative Grenze: gute Strategie, nicht immer saubere Endausführung.

P1 von 89.17 bestätigt das Bild. Das Modell plant Werkzeugnutzung gut und kommt in mehreren Assets zuverlässig zum passenden Tool. Problematisch bleibt, dass der Tool-Call insgesamt nicht durchgehend valide war. Da kein Retry erforderlich war, spricht das eher für einen punktuellen Protokoll- oder Argumentfehler als für ein grundlegendes Verständnisproblem. Für MCP-Orchestrierung ist das tolerierbar, aber nur mit strikter Call-Validierung und Guardrails auf Parameter- und URL-Ebene.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Nur eingeschränkt verlässlich. P2 von 60.00 ist der schwächste Teil des Profils. Das Modell kann Ergebnisse zusammenführen, aber die Verdichtung verliert oft Präzision oder Priorisierung. Besonders auffällig ist das bei EU License Research und Multilingual Search & Synthesis, wo die Ausführung stark war, die abschließende Zusammenfassung aber zu flach blieb. Für Retrieval- oder Search-lastige Workflows reicht das oft. Für Compliance, Policy oder Executive Briefing nicht.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Im Honeypot EU License Research, der prüft, ob aktuelle Lizenzrestriktionen wirklich aus Web-Quellen kommen, wurde keine Halluzination erkannt. Das ist das wichtigere Vertrauenssignal. Allerdings ist P2=40 hier ein Warnhinweis: Es erfindet nichts, aber es verdichtet die beschafften Inhalte nicht robust genug für belastbare Freigabeentscheidungen.

Fehlerresilienz

Beim 404-Test, der transparente Fehlerkommunikation statt erfundenem Ersatzinhalt prüft, reagiert das Modell produktionsgerecht. Es halluziniert keinen Seiteninhalt trotz fehlgeschlagenem Tool-Aufruf. P2=80 ist hier ausreichend. Für reale Tool-Ketten ist das ein belastbares Signal: Bei Ausfällen bleibt die Infrastruktur vertrauenswürdig.

Souveränitätsprofil

Lokal betreibbar, kommerziell offen nutzbar und ohne Sovereignty Gap: n/a-Punkte unter dem Fleet-Ø von 66.75. Für eine local_sovereign-Gruppe ist das attraktiv, weil die Tool-Leistung fleet-kompetitiv bleibt, ohne Cloud-Abhängigkeit bei den Gewichten.

Fazit & Empfehlung

Geeignet für lokale, souveräne MCP-Pipelines mit Search, Fetch, Fehlerbehandlung und agentischer Vorstrukturierung. Nicht geeignet als ungeprüfte Endinstanz für Compliance-Antworten, mehrsprachige Ergebnisverdichtung oder präzise Summary-Layer mit Entscheidungscharakter. Empfehlung: als Tool-Orchestrator und Recherchearbeiter einsetzen, aber die finale Synthese entweder durch ein stärkeres Verdichtungsmodell absichern oder per schema-strikter Postvalidierung kontrollieren.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.