Hermes 3 8B (Q6_K_L)

Hermes 3 8B ist ein Uncensored-Fine-Tune von NousResearch auf Basis von Metas Llama 3.1 8B. Mit acht Milliarden Parametern und 128.000 Tokens Kontextfenster richtet sich das Modell an Instruction-Following, Tool-Use sowie kreative und ambivalente Anfragen. Unter Llama-3.1-Community-Lizenz lokal betreibbar, die reduzierte Ablehnungsrate ist ein definierendes Merkmal dieser Distribution.

NousResearch Version Q6_K_L (GGUF) Kommerzielle Nutzung erlaubt Dense 8 B (8 B aktiv) 128 K Context 09/2024 $0 / $0 per 1M

Restricted Weights
Edge
M4APL
Text
Instruction-Tuned
Uncensored
Real-Time

Sovereign Risk: MEDIUM NousResearch ist ein US-amerikanisches Unternehmen; CLOUD Act ist nur bei API-Nutzung relevant, nicht bei lokaler Ausführung der Open-Weights-Variante.

Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

Name	P1	P2	Combined
EU License Research	100	40	64
HTTP Fetch & Extract	80	15	47.5
Tool Failure Handling (404)	80	80	80
Web Search & Tool Selection	100	15	61.8
URL Construction & Fetch	40	15	27.5
Multilingual Search & Synthesis	100	15	57.5

Name

Combined

EU License Research

100

HTTP Fetch & Extract

47.5

Tool Failure Handling (404)

Web Search & Tool Selection

100

61.8

URL Construction & Fetch

27.5

Multilingual Search & Synthesis

100

57.5

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

Tool Call Valid: Ja

Retry: Nicht erforderlich

Halluzination: Erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1: 1.43; First Request

MCP: 0.93; Protocol Latency

Synthesis: 8.86; Response Generation

Total: 67.31; Sum of All Phases

Token: 6299; Input + Output

Cost: $0; Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Deployment-Urteil

Bedingt deploy, weil das Modell valide Tool-Calls erzeugt und bei der Werkzeugwahl meist richtig liegt, aber die Synthesetreue mit Combined 56.38 und erkanntem Halluzinationsfall nicht stabil genug für vertrauenskritische Pipelines ist.

Tool-Execution-Profil

Hermes 3 8B zeigt brauchbare MCP-Tauglichkeit auf Ausführungsebene. Die Tool-Calls waren valide, Retry war nicht nötig, und beim Web-Search-&-Tool-Selection-Test erkennt das Modell ohne expliziten Hinweis zuverlässig, dass erst gesucht und nicht direkt gefetcht werden muss. Das spricht für echte Werkzeugwahl statt reinem Schema-Following. Gleichzeitig bricht diese Stärke bei URL Construction & Fetch sichtbar ein: Wenn das Modell die Ziel-URL aus Eigenwissen präzise ableiten muss, fällt P1 auf 40. Für produktive Pipelines heißt das klar: stark bei Such- und Auswahlentscheidungen, schwach bei deterministischer URL-Herleitung ohne externe Führung. Es kann also Tool-Infrastruktur bedienen, aber nicht jede Vorstufe der Ressourcenauflösung selbst verlässlich übernehmen.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Nur eingeschränkt. P2 liegt insgesamt bei 30, und das sieht man an den Assets: HTTP Fetch & Extract, Web Search & Tool Selection und Multilingual Search & Synthesis liefern zwar oft den richtigen Zugriffspfad, aber die eigentliche Verdichtung der Ergebnisse bleibt flach oder verliert Präzision. Das Modell holt Daten, transformiert sie aber nicht konsistent in belastbare, knappe Nutzinformation für nachgelagerte Schritte.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Im Honeypot EU License Research, der prüft, ob aktuelle Lizenzrestriktionen wirklich aus Web-Quellen statt aus dem Trainingswissen kommen, bleibt es grundsätzlich auf dem Tool-Pfad. P2 40 ist kein starkes Syntheseergebnis, aber Content-Verification-State A und keine Halluzination zeigen, dass es dort das Vertrauensprinzip einhält. Der globale Halluzinationsbefund bleibt dennoch ein Sicherheitsrisiko: Sobald ein Modell erfundene Fakten als Tool-Ergebnis ausgibt, verliert die gesamte Pipeline ihre Nachvollziehbarkeit.

Fehlerresilienz

Beim 404-Test, der transparente Fehlerkommunikation statt erfundenem Seiteninhalt prüft, reagiert Hermes 3 8B produktionsgerecht. Es halluziniert den fehlenden Inhalt nicht und kommuniziert den Fehlschlag sauber. Das ist ein wichtiger positiver Befund, weil Fehlersichtbarkeit in Tool-Pipelines wichtiger ist als sprachliche Glätte.

Souveränitätsprofil

Lokal betreibbar ohne externen Datentransfer. Leistungsseitig 1.37 Punkte unter dem Fleet-Ø von 67.84. Für ein Edge-Modell im local_sovereign-Betrieb ist das konkurrenzfähig genug, aber nicht stark genug, um Qualitätsdefizite in der Synthese zu kompensieren.

Fazit & Empfehlung

Geeignet für lokale, souveräne MCP-Pipelines mit klarer Tool-Führung, guter Observability und niedriger Toleranz für Cloud-Abhängigkeit. Besonders passend für Recherche-Vorstufen, Tool-Routing und transparente Fehlerpfade. Nicht geeignet für Compliance-, Faktenverdichtungs- oder Executive-Summary-Pipelines, in denen das Modell Tool-Ergebnisse präzise zusammenziehen und ohne jeden erfundenen Zusatz weiterreichen muss. Wenn du es einsetzt, dann mit strikter Quellenbindung, nachgelagerter Validierung und ohne Verantwortung für finale inhaltliche Verdichtung.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.