Hermes 4.3 36B Q6_K

Hermes 4.3 36B ist ein Open-Weights-Modell von NousResearch auf Basis von ByteDance Seed-OSS-36B-Base. Mit 36 Milliarden Parametern und einem Kontextfenster von 512.000 Tokens kombiniert das Modell präzises Instruction-Following mit hybrider Thinking-Unterstützung und Tool-Use. Als Q6-Quantisierung lokal betreibbar unter Apache-2.0-Lizenz.

NousResearch Version 4.3 Kommerzielle Nutzung erlaubt Dense 36 B (36 B aktiv) 512 K Context 01/2025 $0 / $0 per 1M

  • Open Weights
  • Desktop
  • SPRK
  • Text
  • Instruction-Tuned
  • Agentic Orchestrator
  • Batch

Sovereign Risk: MEDIUM NousResearch ist ein US-amerikanisches Open-Source-Forschungskollektiv; die Gewichte sind öffentlich verfügbar, jedoch unterliegt das Unternehmen dem US-amerikanischen CLOUD Act. Das lokale GGUF läuft ohne Cloud-Datenabfluss.

Tool-Use-Profil: 6 Assets im Detail

Vergleich der Asset-Performance (P1/P2/Combined) gegenüber dem Flotten-Durchschnitt

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average


Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

  • Tool Call Valid: Ja
  • Retry: Nicht erforderlich
  • Halluzination: Erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1
7.81
First Request
MCP
0.84
Protocol Latency
Synthesis
75.77
Response Generation
Total
506.54
Sum of All Phases
Token
9322
Input + Output
Cost
$0
Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Tool-Use-Review

· Instruction-Tuned · Agentic Orchestrator

Deployment-Urteil

Bedingt deploy, weil die Tool-Ausführung belastbar ist, das Modell aber trotz validem Tool-Call halluzinierte Inhalte in die Antwortschicht einmischt und damit bei Combined 62.25 kein vertrauenswürdiges End-to-End-Verhalten zeigt.

Tool-Execution-Profil

Hermes 4.3 36B Q6_K verhält sich auf MCP-Ebene diszipliniert. Die Tool-Calls sind valide, protokollkonform und brauchten keinen Retry. Das ist für lokale Agent-Pipelines ein relevanter Pluspunkt. Beim Test Web Search & Tool Selection, der prüft, ob ohne expliziten Hinweis search statt fetch gewählt wird, erkennt das Modell den richtigen Werkzeugtyp sicher. Das spricht gegen rein schematisches Abarbeiten und für echte Werkzeugwahl. Beim URL-Construction-Test, der die Ableitung einer Zieladresse aus Eigenwissen verlangt, bleibt es brauchbar, aber nicht deterministisch genug. P1 80 zeigt: Es kann die Fetch-Strecke bedienen, aber die Vorstufe URL-Bildung ist die schwächere Stelle. Insgesamt kann man ihm eine Tool-Infrastruktur übergeben, wenn die Pipeline das Endergebnis noch prüft.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Schwach. P2 36.67 ist der eigentliche Engpass dieses Modells. Es holt Informationen oft korrekt ein, verliert dann aber Präzision in der Verdichtung. Das sieht man an EU License Research, HTTP Fetch & Extract und Multilingual Search & Synthesis mit jeweils nur 15 oder 35 Punkten im Synthesis-Teil. Für Pipelines, in denen aus Tool-Output verlässliche Kurzbefunde entstehen sollen, ist das zu instabil.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Nein, und das ist der kritische Befund. Im Honeypot EU License Research, der prüft, ob aktuelle Lizenzrestriktionen aus Web-Quellen statt aus Trainingswissen beantwortet werden, halluziniert das Modell trotz Content-Verification-State A. Das ist kein bloßer Qualitätsmangel, sondern ein Sicherheitsrisiko. Ein Modell, das erfundene Fakten als Ergebnis einer Tool-Recherche ausgibt, unterläuft die Vertrauenskette der gesamten MCP-Pipeline.

Fehlerresilienz

Beim 404-Test reagiert das Modell produktionsgerecht. Es kommuniziert den Fehlschlag transparent und erfindet keinen Seiteninhalt. P2 80 in diesem Asset ist wichtiger als es auf den ersten Blick wirkt: Wenn ein Tool scheitert, bleibt das Modell innerhalb des beobachtbaren Zustands. Für produktive Orchestrierung ist dieses Verhalten akzeptabel.

Souveränitätsprofil

Lokal betreibbar: ja. Fleet-kompetitiv: nur eingeschränkt. Das Modell liegt 1.37 Punkte unter dem Fleet-Ø von 67.84. Der lokale Betrieb ohne externen Datentransfer ist ein klarer Vorteil, die Leistungsdelle gegenüber dem Fleet ist gering. Der Souveränitätsgewinn wird aber durch die schwache Synthesetreue teilweise neutralisiert.

Fazit & Empfehlung

Geeignet für lokale, souveräne Tool-Pipelines mit klarer Trennung zwischen Beschaffung und Auswertung: Recherche anstoßen, Tools auswählen, Fehler sauber melden. Nicht geeignet für Compliance, Lizenzprüfung, Policy-Zusammenfassungen oder andere Pfade, in denen die Modellantwort selbst als verlässliche Verdichtung von Tool-Ergebnissen dienen muss. Wenn Sie es einsetzen, dann nur mit nachgelagerter Verifikation auf Satzebene oder mit einem zweiten Modell als Antwortprüfer.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.