Hermes 4 14B (Q4_K_M)

Hermes 4 14B als Q4-Quantisierung der NousResearch-Distribution auf Qwen-3-Basis, optimiert für lokale Assistenz und agentische Aufgaben. Mit 14 Milliarden Parametern und 128.000 Tokens Kontextfenster läuft das Modell auf ressourcenbeschränkter Hardware und unterstützt hybride Denkmodi. Unter Apache-2.0-Lizenz voll kommerziell nutzbar.

NousResearch Version 4.0 Kommerzielle Nutzung erlaubt Dense 14 B (14 B aktiv) 128 K Context 09/2024 $0 / $0 per 1M

Open Weights
Desktop
M4APL
Text
Instruction-Tuned
Interactive

Sovereign Risk: MEDIUM NousResearch ist ein US-amerikanisches Unternehmen; CLOUD Act ist nur bei API-Nutzung relevant, nicht bei lokaler Ausführung der Open-Weights-Variante.

Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

Name	P1	P2	Combined
EU License Research	100	40	64
HTTP Fetch & Extract	80	15	47.5
Tool Failure Handling (404)	80	80	80
Web Search & Tool Selection	100	15	61.8
URL Construction & Fetch	80	80	80
Multilingual Search & Synthesis	100	40	70

Name

Combined

EU License Research

100

HTTP Fetch & Extract

47.5

Tool Failure Handling (404)

Web Search & Tool Selection

100

61.8

URL Construction & Fetch

Multilingual Search & Synthesis

100

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

Tool Call Valid: Ja

Retry: Nicht erforderlich

Halluzination: Erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1: 2.43; First Request

MCP: 0.87; Protocol Latency

Synthesis: 15.4; Response Generation

Total: 112.21; Sum of All Phases

Token: 7496; Input + Output

Cost: $0; Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Deployment-Urteil

Bedingt deploy, weil Hermes 4 14B in der Tool-Ausführung verlässlich arbeitet, aber die Synthesequalität mit Halluzinationsbefund das Vertrauen in nachgelagerte Faktenausgaben einschränkt.

Tool-Execution-Profil

Das Modell kann einer MCP-gestützten Pipeline grundsätzlich Tools anvertrauen. Der Tool-Call war valide, ein Retry war nicht nötig, und die Ausführung wirkt protokollkonform. Besonders stark ist es beim Web-Search-&-Tool-Selection-Test, der prüft, ob ohne Hinweis Suche statt Direkt-Fetch nötig ist: Hier wählt es das richtige Werkzeug und zeigt echte Werkzeugwahl statt bloßes Schema-F. Beim URL-Construction-Test konstruiert es die Ziel-URL brauchbar und führt den Fetch aus, aber nicht mit derselben Sicherheit. Das spricht für operative Tool-Intelligenz, aber nicht für vollständig deterministisches Routing. Für Discovery- und Recherche-Pipelines ist das gut genug. Für strikt vorhersagbare Retrieval-Ketten bleibt ein enger Guardrail-Rahmen sinnvoll.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Nur eingeschränkt. Die P2-Leistung zeigt, dass Hermes 4 14B Ergebnisse oft korrekt einsammelt, aber beim Verdichten und Extrahieren an Präzision verliert. Das sieht man besonders bei HTTP Fetch & Extract, wo strukturierte Fakten aus realem Seiteninhalt sauber übernommen werden müssten, sowie bei Web Search & Tool Selection und Multilingual Search & Synthesis. Für produktive Pipelines heißt das: Der Retrieval-Schritt ist stärker als der Reporting-Schritt.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Im Honeypot EU License Research, der aktuelle Lizenzrestriktionen aus Web-Quellen erzwingen soll, bleibt es im Test auf der sicheren Seite: keine Halluzination, Content-Verification-State A. Gleichzeitig ist der globale Halluzinationsbefund ein Sicherheitsrisiko. Sobald ein Modell auch nur punktuell erfundene Fakten als Tool-Ergebnis ausgeben kann, unterminiert es die Vertrauenskette der gesamten Infrastruktur. Dieses Modell braucht daher Output-Prüfung vor jeder automatischen Weiterverarbeitung.

Fehlerresilienz

Beim 404-Test, der transparentes Verhalten bei einem fehlschlagenden Tool-Call prüft, reagiert Hermes 4 14B produktionstauglich. Es kommuniziert den Fehler, statt Seiteninhalt zu erfinden. Das ist ein klar positives Signal. Eine Pipeline kann mit offenen Fehlermeldungen arbeiten. Mit halluziniertem Ersatzinhalt könnte sie das nicht.

Souveränitätsprofil

Lokal betreibbar und praktisch einsetzbar. Der Sovereignty Gap liegt bei -1.37 Punkten unter dem Fleet-Ø von 67.84. Damit bleibt das Modell fleet-nah, ohne externen Datentransfer und mit den Vorteilen einer Open-Weights-Ausführung im eigenen Kontrollraum.

Fazit & Empfehlung

Geeignet für lokale Recherche-, Routing- und Assistenzpipelines, in denen das Modell Tools auswählt, Ergebnisse holt und Zwischenschritte transparent meldet. Nicht geeignet als unbeaufsichtigte letzte Instanz für faktenkritische Compliance-, Extraktions- oder Entscheidungsstrecken. Deployen, wenn Sie die Endausgabe durch Schema-Validatoren, Quellzitat-Pflicht oder einen zweiten Verifikationsschritt absichern. Ohne solche Sicherungen würde ich es nicht an automatische Downstream-Aktionen koppeln.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.