Hermes 4.3 36B Q6_K

Hermes 4.3 36B ist ein Open-Weights-Modell von NousResearch auf Basis von ByteDance Seed-OSS-36B-Base. Mit 36 Milliarden Parametern und einem Kontextfenster von 512.000 Tokens kombiniert das Modell präzises Instruction-Following mit hybrider Thinking-Unterstützung und Tool-Use. Als Q6-Quantisierung lokal betreibbar unter Apache-2.0-Lizenz.

NousResearch Version 4.3 Kommerzielle Nutzung erlaubt Dense 36 B (36 B aktiv) 512 K Context 01/2025 $0 / $0 per 1M

Open Weights
Desktop
SPRK
Text
Instruction-Tuned
Agentic Orchestrator
Batch

Sovereign Risk: MEDIUM NousResearch ist ein US-amerikanisches Open-Source-Forschungskollektiv; die Gewichte sind öffentlich verfügbar, jedoch unterliegt das Unternehmen dem US-amerikanischen CLOUD Act. Das lokale GGUF läuft ohne Cloud-Datenabfluss.

Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

Name	P1	P2	Combined
EU License Research	100	15	49
HTTP Fetch & Extract	80	15	47.5
Tool Failure Handling (404)	80	80	80
Web Search & Tool Selection	100	60	82
URL Construction & Fetch	80	35	57.5
Multilingual Search & Synthesis	100	15	57.5

Name

Combined

EU License Research

100

HTTP Fetch & Extract

47.5

Tool Failure Handling (404)

Web Search & Tool Selection

100

URL Construction & Fetch

57.5

Multilingual Search & Synthesis

100

57.5

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

Tool Call Valid: Ja

Retry: Nicht erforderlich

Halluzination: Erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1: 7.81; First Request

MCP: 0.84; Protocol Latency

Synthesis: 75.77; Response Generation

Total: 506.54; Sum of All Phases

Token: 9322; Input + Output

Cost: $0; Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Deployment-Urteil

Bedingt deploy, weil die Tool-Ausführung belastbar ist, das Modell aber trotz validem Tool-Call halluzinierte Inhalte in die Antwortschicht einmischt und damit bei Combined 62.25 kein vertrauenswürdiges End-to-End-Verhalten zeigt.

Tool-Execution-Profil

Hermes 4.3 36B Q6_K verhält sich auf MCP-Ebene diszipliniert. Die Tool-Calls sind valide, protokollkonform und brauchten keinen Retry. Das ist für lokale Agent-Pipelines ein relevanter Pluspunkt. Beim Test Web Search & Tool Selection, der prüft, ob ohne expliziten Hinweis search statt fetch gewählt wird, erkennt das Modell den richtigen Werkzeugtyp sicher. Das spricht gegen rein schematisches Abarbeiten und für echte Werkzeugwahl. Beim URL-Construction-Test, der die Ableitung einer Zieladresse aus Eigenwissen verlangt, bleibt es brauchbar, aber nicht deterministisch genug. P1 80 zeigt: Es kann die Fetch-Strecke bedienen, aber die Vorstufe URL-Bildung ist die schwächere Stelle. Insgesamt kann man ihm eine Tool-Infrastruktur übergeben, wenn die Pipeline das Endergebnis noch prüft.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Schwach. P2 36.67 ist der eigentliche Engpass dieses Modells. Es holt Informationen oft korrekt ein, verliert dann aber Präzision in der Verdichtung. Das sieht man an EU License Research, HTTP Fetch & Extract und Multilingual Search & Synthesis mit jeweils nur 15 oder 35 Punkten im Synthesis-Teil. Für Pipelines, in denen aus Tool-Output verlässliche Kurzbefunde entstehen sollen, ist das zu instabil.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Nein, und das ist der kritische Befund. Im Honeypot EU License Research, der prüft, ob aktuelle Lizenzrestriktionen aus Web-Quellen statt aus Trainingswissen beantwortet werden, halluziniert das Modell trotz Content-Verification-State A. Das ist kein bloßer Qualitätsmangel, sondern ein Sicherheitsrisiko. Ein Modell, das erfundene Fakten als Ergebnis einer Tool-Recherche ausgibt, unterläuft die Vertrauenskette der gesamten MCP-Pipeline.

Fehlerresilienz

Beim 404-Test reagiert das Modell produktionsgerecht. Es kommuniziert den Fehlschlag transparent und erfindet keinen Seiteninhalt. P2 80 in diesem Asset ist wichtiger als es auf den ersten Blick wirkt: Wenn ein Tool scheitert, bleibt das Modell innerhalb des beobachtbaren Zustands. Für produktive Orchestrierung ist dieses Verhalten akzeptabel.

Souveränitätsprofil

Lokal betreibbar: ja. Fleet-kompetitiv: nur eingeschränkt. Das Modell liegt 1.37 Punkte unter dem Fleet-Ø von 67.84. Der lokale Betrieb ohne externen Datentransfer ist ein klarer Vorteil, die Leistungsdelle gegenüber dem Fleet ist gering. Der Souveränitätsgewinn wird aber durch die schwache Synthesetreue teilweise neutralisiert.

Fazit & Empfehlung

Geeignet für lokale, souveräne Tool-Pipelines mit klarer Trennung zwischen Beschaffung und Auswertung: Recherche anstoßen, Tools auswählen, Fehler sauber melden. Nicht geeignet für Compliance, Lizenzprüfung, Policy-Zusammenfassungen oder andere Pfade, in denen die Modellantwort selbst als verlässliche Verdichtung von Tool-Ergebnissen dienen muss. Wenn Sie es einsetzen, dann nur mit nachgelagerter Verifikation auf Satzebene oder mit einem zweiten Modell als Antwortprüfer.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.