Hermes 4 14B (Q4_K_M)

Hermes 4 14B als Q4-Quantisierung der NousResearch-Distribution auf Qwen-3-Basis, optimiert für lokale Assistenz und agentische Aufgaben. Mit 14 Milliarden Parametern und 128.000 Tokens Kontextfenster läuft das Modell auf ressourcenbeschränkter Hardware und unterstützt hybride Denkmodi. Unter Apache-2.0-Lizenz voll kommerziell nutzbar.

NousResearch Version 4.0 Kommerzielle Nutzung erlaubt Dense 14 B (14 B aktiv) 128 K Context 09/2024 $0 / $0 per 1M

  • Open Weights
  • Desktop
  • M4APL
  • Text
  • Instruction-Tuned
  • Interactive

Sovereign Risk: MEDIUM NousResearch ist ein US-amerikanisches Unternehmen; CLOUD Act ist nur bei API-Nutzung relevant, nicht bei lokaler Ausführung der Open-Weights-Variante.

Tool-Use-Profil: 6 Assets im Detail

Vergleich der Asset-Performance (P1/P2/Combined) gegenüber dem Flotten-Durchschnitt

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average


Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

  • Tool Call Valid: Ja
  • Retry: Nicht erforderlich
  • Halluzination: Erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1
2.43
First Request
MCP
0.87
Protocol Latency
Synthesis
15.4
Response Generation
Total
112.21
Sum of All Phases
Token
7496
Input + Output
Cost
$0
Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Tool-Use-Review

Erstellt am · Instruction-Tuned

Deployment-Urteil

Bedingt deploy, weil Hermes 4 14B in der Tool-Ausführung verlässlich arbeitet, aber die Synthesequalität mit Halluzinationsbefund das Vertrauen in nachgelagerte Faktenausgaben einschränkt.

Tool-Execution-Profil

Das Modell kann einer MCP-gestützten Pipeline grundsätzlich Tools anvertrauen. Der Tool-Call war valide, ein Retry war nicht nötig, und die Ausführung wirkt protokollkonform. Besonders stark ist es beim Web-Search-&-Tool-Selection-Test, der prüft, ob ohne Hinweis Suche statt Direkt-Fetch nötig ist: Hier wählt es das richtige Werkzeug und zeigt echte Werkzeugwahl statt bloßes Schema-F. Beim URL-Construction-Test konstruiert es die Ziel-URL brauchbar und führt den Fetch aus, aber nicht mit derselben Sicherheit. Das spricht für operative Tool-Intelligenz, aber nicht für vollständig deterministisches Routing. Für Discovery- und Recherche-Pipelines ist das gut genug. Für strikt vorhersagbare Retrieval-Ketten bleibt ein enger Guardrail-Rahmen sinnvoll.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Nur eingeschränkt. Die P2-Leistung zeigt, dass Hermes 4 14B Ergebnisse oft korrekt einsammelt, aber beim Verdichten und Extrahieren an Präzision verliert. Das sieht man besonders bei HTTP Fetch & Extract, wo strukturierte Fakten aus realem Seiteninhalt sauber übernommen werden müssten, sowie bei Web Search & Tool Selection und Multilingual Search & Synthesis. Für produktive Pipelines heißt das: Der Retrieval-Schritt ist stärker als der Reporting-Schritt.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Im Honeypot EU License Research, der aktuelle Lizenzrestriktionen aus Web-Quellen erzwingen soll, bleibt es im Test auf der sicheren Seite: keine Halluzination, Content-Verification-State A. Gleichzeitig ist der globale Halluzinationsbefund ein Sicherheitsrisiko. Sobald ein Modell auch nur punktuell erfundene Fakten als Tool-Ergebnis ausgeben kann, unterminiert es die Vertrauenskette der gesamten Infrastruktur. Dieses Modell braucht daher Output-Prüfung vor jeder automatischen Weiterverarbeitung.

Fehlerresilienz

Beim 404-Test, der transparentes Verhalten bei einem fehlschlagenden Tool-Call prüft, reagiert Hermes 4 14B produktionstauglich. Es kommuniziert den Fehler, statt Seiteninhalt zu erfinden. Das ist ein klar positives Signal. Eine Pipeline kann mit offenen Fehlermeldungen arbeiten. Mit halluziniertem Ersatzinhalt könnte sie das nicht.

Souveränitätsprofil

Lokal betreibbar und praktisch einsetzbar. Der Sovereignty Gap liegt bei -1.37 Punkten unter dem Fleet-Ø von 67.84. Damit bleibt das Modell fleet-nah, ohne externen Datentransfer und mit den Vorteilen einer Open-Weights-Ausführung im eigenen Kontrollraum.

Fazit & Empfehlung

Geeignet für lokale Recherche-, Routing- und Assistenzpipelines, in denen das Modell Tools auswählt, Ergebnisse holt und Zwischenschritte transparent meldet. Nicht geeignet als unbeaufsichtigte letzte Instanz für faktenkritische Compliance-, Extraktions- oder Entscheidungsstrecken. Deployen, wenn Sie die Endausgabe durch Schema-Validatoren, Quellzitat-Pflicht oder einen zweiten Verifikationsschritt absichern. Ohne solche Sicherungen würde ich es nicht an automatische Downstream-Aktionen koppeln.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.