Hermes 4 70B

Hermes 4 70B ist ein offenes Instruct- und Reasoning-Modell von Nous Research aus der Hermes-4-Familie mit 70 Milliarden Parametern. Das Modell kombiniert optionales Thinking mit fortgeschrittenem Tool-Use und strukturierten Ausgaben, trainiert auf hohe Steuerbarkeit und reduzierte Refusal-Raten. Als Open-Weights-Modell unter Modified-MIT-Lizenz lokal oder serverseitig einsetzbar.

NousResearch Version 4 Kommerzielle Nutzung erlaubt Dense 70 B (70 B aktiv) 131 K Context 01/2025 $0.13 / $0.4 per 1M

  • Open Weights
  • Server
  • OR
  • Text
  • Instruction-Tuned
  • Real-Time

Tool-Use-Profil: 6 Assets im Detail

Vergleich der Asset-Performance (P1/P2/Combined) gegenüber dem Flotten-Durchschnitt

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average


Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

  • Tool Call Valid: Nein
  • Retry: Erforderlich
  • Halluzination: Erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1
0.84
First Request
MCP
0.78
Protocol Latency
Synthesis
3.05
Response Generation
Total
28.05
Sum of All Phases
Token
7599
Input + Output
Cost
$0.0014
Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Tool-Use-Review

Aktualisiert am · Instruction-Tuned

Deployment-Urteil

Bedingt deploy, weil die Tool-Ausführung verlässlich ist, aber die Synthesequalität mit Halluzinationsbefund das Vertrauen in unbeaufsichtigte Tool-Pipelines begrenzt.

Tool-Execution-Profil

Hermes 4 70B arbeitet auf der Ausführungsseite stark. Die Tool-Calls sind valide, MCP-konform und in den suchgetriebenen Aufgaben treffsicher. Beim Web-Search-&-Tool-Selection-Test, der prüft, ob ohne Hinweis search statt fetch gewählt wird, erkennt das Modell den richtigen Werkzeugtyp sicher. Das spricht gegen starres Musterfolgen und für tatsächliche Werkzeugwahl anhand der Aufgabe.

Schwächer ist es dort, wo es die Zieladresse selbst herleiten muss. Beim URL-Construction-&-Fetch-Test konstruiert es die URL oft brauchbar, aber nicht durchgehend präzise genug für deterministische Pipelines. Das ist kein Protokollproblem, sondern ein Präzisionsproblem vor dem Call. Dass ein Retry erforderlich war, passt dazu: eher Korrektur im Ablauf oder bei der Zielbestimmung, nicht grundlegendes Missverständnis der Tool-Schnittstelle.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Nur eingeschränkt. Die P2-Leistung zeigt ein klares Gefälle zwischen Beschaffung und Verarbeitung. Hermes 4 70B holt Informationen zuverlässig, verdichtet sie aber häufig zu grob, lässt relevante Details liegen oder formuliert die Ausgabe nicht eng genug am Tool-Befund. Das sieht man besonders bei HTTP Fetch & Extract sowie Web Search & Tool Selection, wo die Ausführung stark ist, die Endantwort aber deutlich an Präzision verliert.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Im Honeypot EU License Research bleibt es im verifizierten Web-Befund. Das ist das wichtigste Vertrauenssignal hier. Gleichzeitig bleibt der globale Halluzinationsbefund ein Sicherheitsrisiko: Sobald ein Modell in einer Tool-Pipeline erfundene Fakten als Ergebnis ausgibt, beschädigt es die Verlässlichkeit der gesamten Infrastruktur. Für produktive Nutzung heißt das: Beschaffung ja, Synthese nur mit nachgelagerter Prüfung.

Fehlerresilienz

Beim 404-Test, der transparenten Umgang mit fehlgeschlagenen Tool-Calls prüft, erfindet Hermes 4 70B keinen Seiteninhalt. Das ist die Mindestbedingung für Produktion und wird erfüllt. Die schwache Wertung kommt daher, dass die Fehlerkommunikation wenig nützlich verdichtet ist. Operativ ist das akzeptabel: lieber knappe, unvollständige Fehlermeldung als konstruierter Ersatzinhalt.

Souveränitätsprofil

Lokal betreibbar mit offenen Gewichten und damit für souveräne Deployments attraktiv. Leistungsseitig liegt es 1.37 Punkte unter dem Fleet-Ø von 67.84 und bleibt damit fleet-nah, aber nicht führend.

Fazit & Empfehlung

Geeignet für MCP-Pipelines, in denen das Modell Tools auswählt, Calls erzeugt und Rohbefunde an einen zweiten Prüf- oder Render-Schritt übergibt. Ebenfalls brauchbar für souveräne Recherche-Workflows mit Human-in-the-Loop. Nicht geeignet als alleinige letzte Instanz für Compliance, Extraktion mit hoher Faktendichte oder automatisierte Nutzerantworten ohne Verifikation. Wenn Sie ihm die Tool-Infrastruktur übergeben, dann als Beschaffer und Orchestrator, nicht als unkontrollierten Schlussredakteur.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.