Hermes 4 70B · LLM Model Review

Mit einem Gesamtscore von 65,96 Prozent zeigt Hermes 4 70B ziemlich genau das Profil, das man von einem großen, dichten Instruct-Generalisten dieser Klasse erwarten darf: schnell, direkt, oft brauchbar, aber zu oft nur auf halber Flughöhe. Der Speed-Profile-Badge Real-Time DevOps Expert passt dabei besser zur Arbeitsweise als zur tatsächlichen Breite der Qualität: Das Modell antwortet zügig und straff, doch in den entscheidenden Präzisionsaufgaben fehlt ihm stellenweise die Schärfe. Als Generalist in der Server-Klasse mit 70 Milliarden Parametern und Dense-Architektur muss es sich an ernsthaften Allround-Ansprüchen messen lassen. Sovereign Risk: MEDIUM — Nous Research ist ein US-Anbieter; damit greift US-Jurisdiktion inklusive CLOUD Act, auch wenn die Gewichte offen verfügbar sind.

Kopfnoten: Stabilität und Zuverlässigkeit

Metrik	Wert	Bewertung	Analyse
Timeout-Rate	0/43	Stabil	Das Modell lief im Test absolut stabil und zuverlässig.
P95-Antwortzeit	21.8 s	Konsistent	Sehr geringer Tail, kaum Ausreißer.

Das ist die gute Nachricht, und sie ist mehr als Kosmetik. Hermes 4 70B lief hier als Cloud Open-Weights-Modell über einen externen Anbieter, nicht als proprietäre Blackbox. Null Timeouts über 43 Tests sind in diesem Setup ein echtes Praxissignal. Wer Agenten-Workflows, Batch-Jobs oder interaktive Redaktionsaufgaben baut, bekommt keinen launischen Endpunkt, sondern ein System, das im Benchmark verlässlich antwortet.

Performance und Kostenprofil

Die ausgewiesene Generierungsgeschwindigkeit liegt bei 85,5 Tokens pro Sekunde. Für Leser ist wichtig, was diese Zahl bedeutet: Sie beschreibt in erster Linie die Leistungsfähigkeit der Cloud-Infrastruktur des Anbieters, nicht irgendeine abstrakte Modelleigenschaft im luftleeren Raum. Solche Werte entstehen aus Server-Backend, Netzwerkpfad und Endpunkt-Optimierung. Sie sind ein Infrastruktur-Benchmark mit Modellcharakter, kein Naturgesetz.

Der Badge Real-Time DevOps Expert signalisiert einen typischen Einsatzfall: kurze bis mittlere technische Aufgaben, schnelle Iterationen, Antworten ohne langes Nachdenken auf offener Bühne. Genau dort fühlt sich Hermes 4 70B sichtbar wohl. Die durchschnittliche Aufgabendauer von 7,95 Sekunden bestätigt das Bild. Es ist kein Modell, das erst drei Tassen Espresso braucht, bevor es in die Tasten kommt.

Auch preislich bleibt es auffallend aggressiv: 0,13 Dollar pro Million Input-Tokens und 0,4 Dollar pro Million Output-Tokens, Benchmark-Kosten 0,0172 Dollar. Das ist für ein 70B-Servermodell attraktiv. Der Preis erklärt allerdings auch, warum mancher Leser versucht sein wird, die Qualitätslücken wegzudiskutieren. Das wäre bequem, aber falsch. Günstig ist nicht automatisch gut. Hier heißt es eher: günstig genug, um Schwächen manchmal zu verzeihen.

Token-Ökonomie statt Wortschwall

Hermes 4 70B verhält sich insgesamt token-ökonomisch. Kein Modul überschreitet den erwarteten Verbosity-Rahmen in kritischer Weise. Das ist für ein Instruct-Modell ein Pluspunkt, denn diese Klasse sollte knapp und zielgerichtet liefern. Genau das tut Hermes meistens auch.

Nur im Bereich Code Quality liegt der Durchschnitt mit 3023 Tokens bei 1,52-fachem Fleet-Median von 1989 Tokens. Das ist kein Qualitätsbonus, sondern ein Kostenhinweis.

API-Kostenprofil

Dieses Modell produziert im Code-Quality-Bereich durchschnittlich 3023 Tokens bei einem Fleet-Median von 1989. Das entspricht einem Faktor von 1,52 gegenüber dem Schnitt aller getesteten Modelle. Für API-Nutzer heißt das schlicht: Wenn Hermes 4 70B Code-Audits löst, redet es etwas länger als der Durchschnitt. Bei gleichem oder schlechterem Ergebnis werden Antworten dadurch nicht besser, nur teurer.

Interessant ist dabei der Widerspruch: Im Mittel ist das Modell knapp, in Code Quality aber plötzlich erstaunlich ausladend. Das riecht nach internem, nicht sichtbarem Reasoning oder zumindest nach einer Tendenz, bei komplexen Sicherheitsaufgaben unnötig weit auszuholen.

Code Quality: viel Trefferfläche, zu wenig Tiefenschärfe

Der Bereich Code Quality ist die größte Enttäuschung des Modells. Der Modulscore von 58,2 Prozent ist für einen 70B-Generalisten in der Server-Klasse schlicht zu schwach. Hermes 4 70B erkennt viele gängige Schwachstellen, aber es arbeitet wie ein Security-Reviewer, der den OWASP-Spickzettel kennt und dann beim genauen Lesen des Codes die Brille vergisst.

Das qualitative Protokoll zeigt das ziemlich deutlich. In einer PHP-Sicherheitsanalyse identifiziert das Modell zwar 14 Schwachstellen und trifft dabei etliche offensichtliche Punkte wie Session Fixation, Path Traversal, CSRF oder schwache Token-Generierung. Das Problem beginnt dort, wo Präzision gefragt ist. Hermes 4 70B übersieht mehrere kritische Befunde, darunter eine eigenständige SQL-Injection im DELETE-Statement sowie fest kodierte Zugangsdaten und ein hart verdrahtetes API-Secret. Noch schwerer wiegt der Fehlalarm: Eine sauber parametrisierte mysqli_prepare-Abfrage wird fälschlich als SQL-Injection markiert. Genau an dieser Stelle trennt sich Mustererkennung von belastbarer Code-Analyse. Hermes sieht Rauch, wo keiner ist, und übersieht gleichzeitig das Feuer in der Ecke.

Dazu kommt eine systematische Unterschätzung von Schweregraden. Schwachstellen, die komplette Übernahmen ermöglichen, stuft das Modell zu mild ein. Für echte Security-Arbeit ist das kein Schönheitsfehler. Wer Kritikalität falsch kalibriert, priorisiert falsch, patcht falsch und dokumentiert falsch. Security ist kein Literaturseminar. Die Nuance entscheidet.

In einer Aufgabe im Code-Quality-Bereich hat Hermes 4 70B zudem das explizite Token-Budget von 6000 Tokens vollständig ausgeschöpft. Das ist kein normaler Stilbruch, sondern ein regelbasierter Constraint-Befund: Das Modell lief gegen die Modulgrenze, obwohl es nicht als Thinking-Modell klassifiziert ist und keine sichtbaren Reasoning-Tokens in den Metadaten gemeldet wurden. Das deutet auf verdeckten Denk-Overhead hin. Für den Anwender heißt das: In langen Audit-Antworten kann Hermes überraschend viel Platz verbrennen, ohne dass die zusätzliche Länge durch bessere Präzision gedeckt wäre.

Mildernd muss man fairerweise sagen: Ein Uncensored-Finetuned-Modell ist nicht primär für Security-Audits oder saubere Entwicklerdiagnostik gebaut. Der Fokus dieser Kategorie liegt eher auf direkter, wenig zensierter Inhaltsgenerierung als auf chirurgischer Code-Exegese. Das entschuldigt aber nicht alles. Bei 70 Milliarden dichten Parametern darf man erwarten, dass vorbereitete Statements als solche erkannt werden.

Reasoning und Logik: korrekt, aber zu kurzatmig

Im Logical Reasoning kommt Hermes 4 70B auf 62,18 Prozent. Das ist kein Desaster, aber auch kein Ausrufezeichen. Das Modell löst logische Kernaufgaben oft korrekt, nur fehlt ihm der zweite Gang. Für ein Instruct-Modell ist knappe Antwortführung normal. In Logik-Aufgaben wird diese Knappheit jedoch schnell zum Nachteil, weil das Modell zu früh glaubt, fertig zu sein.

Das Rätselexempel mit den zwei Wächtern illustriert das gut. Hermes liefert die richtige Lösung, nutzt die geforderten <thought>-Tags sauber und erklärt die Doppelverneinung grundsätzlich korrekt. Inhaltlich also kein Fehltritt. Aber der Auftrag verlangte ausdrücklich das Erkunden verschiedener Ansätze. Genau das unterbleibt. Das Modell springt direkt zur Standardlösung, ohne Alternativen ernsthaft zu prüfen oder zu verwerfen. Das wirkt effizient, ist aber intellektuell etwas zu selbstzufrieden.

Für den Alltag bedeutet das: Hermes 4 70B ist brauchbar, wenn man schnelle, richtige Erstlösungen braucht. Sobald eine Aufgabe didaktische Tiefe, systematische Herleitung oder robuste Nachvollziehbarkeit verlangt, wirkt das Modell gehetzt. Es denkt nicht sichtbar schlecht. Es denkt nur zu früh auf Stop.

Content Transformation: brauchbare Kreativität, wacklige Sprachdisziplin

Mit 68,16 Prozent im Bereich Content Transformation & Adaption landet Hermes 4 70B im soliden Mittelfeld. Das Modell kann Inhalte umformen, umschreiben und neu inszenieren, ohne sofort auseinanderzufallen. Die besten Momente entstehen dort, wo klare Struktur zählt: Zeitmarken, Abschnittslogik, gesprochene Sprache, Produktionshinweise. In einem Video-Skript zur Zwei-Faktor-Authentifizierung lieferte Hermes ein vollständig nutzbares Drehbuch mit Timestamps, Screen-Anweisungen, B-Roll-Ideen und einem insgesamt funktionierenden Flow. Das ist nicht trivial. Viele Modelle scheitern schon daran, gleichzeitig Regie, Sprechertext und Format zusammenzuhalten.

Die Grenzen sieht man allerdings ebenfalls schnell. Das Skript war funktional, aber emotional flach. Der Hook blieb informativ, wo die Musterlösung dramaturgisch zupackte. Bildschirmhinweise waren vorhanden, aber generisch. Und beim Easter Egg leistete sich Hermes einen fast komischen Konstruktionsfehler: Es kündigte den versteckten Gag an, statt ihn versteckt zu lassen. Ein Easter Egg, das sich selbst mit der Trillerpfeife ankündigt, ist kein Easter Egg mehr. Es ist eine PowerPoint-Folie.

Dazu kommt ein klarer Hard-Constraint-Befund: In einer Aufgabe dieses Moduls ignorierte Hermes 4 70B die explizite Sprachvorgabe und antwortete auf Englisch, obwohl Deutsch verlangt war. Das ist kein stilistischer Patzer, sondern ein automatischer Regelverstoß. In produktiven Umgebungen mit fester Zielsprache ist so etwas ein echter Fehlstart, weil nachgelagerte Systeme die Antwort nicht erst auf kulturelle Plausibilität prüfen, sondern schlicht weiterverarbeiten. Gerade für ein Instruct-Modell ist das eine unnötige Blöße.

Documentation Quality: starkes Terrain, aber nicht sprachsauber genug

Der Score von 71,15 Prozent in Documentation Quality gehört zu den besseren Werten des Modells. Das passt zum Charakter von Hermes 4 70B. Wenn Struktur, Erklärfluss und lesbare Aufbereitung gefragt sind, arbeitet das Modell kontrolliert, meist klar und ohne unnötige Show. Hier spielt der Instruct-Charakter seine Stärken aus: direkte Anweisungsbefolgung, übersichtliche Antwortführung, brauchbare Gliederung.

Aber auch in diesem Modul gibt es einen harten Instruktionsbruch. In einer Dokumentationsaufgabe antwortete Hermes 4 70B ebenfalls auf Englisch statt auf Deutsch. Das ist zusammen mit dem Sprachfehler im Content-Bereich kein Ausrutscher mehr, sondern ein sichtbares Muster. Das Sprachversagen ist kein isolierter Ausreißer. Über mehrere Aufgaben in verschiedenen Modulen zeigt das Modell ein konsistentes Signal: Bei simultanen Vorgaben aus Sprache, Struktur und Inhalt verliert es die Sprachvorgabe als erste Bedingung. Für Redaktionen, Support-Teams oder Wissensdatenbanken mit fixer Ausgabesprache ist das ein reales Risiko.

Gerade weil das Modell inhaltlich oft ordentlich dokumentiert, ist dieser Fehler ärgerlich. Ein Dokument, das sprachlich am Zielmarkt vorbeischreibt, ist operativ nicht halb richtig, sondern ganz falsch.

UX Writing und Mikrokopie: ordentlich, aber ohne feine Hand

Im Bereich UX Writing & Microcopy erreicht Hermes 4 70B 64,11 Prozent. Das ist okay, mehr nicht. Das Modell kann knapp formulieren, es kann Benutzersprache treffen und es weiß meist, wie man Textbausteine in ein funktionales Interface-Register überführt. Doch gute Mikrokopie lebt nicht nur von Korrektheit, sondern von Tonpräzision, Reibungsarmut und dem Gefühl, dass ein Satz an der richtigen Stelle die richtige Temperatur hat. Genau diese Feinabstimmung fehlt Hermes oft.

Das passt zur Architektur-Kategorie. Uncensored-Finetuned-Modelle sind häufig direkter, weniger gehemmt und weniger reflexhaft vorsichtig. Das kann in Dialogen oder kreativen Rollen nützlich sein. In UX-Texten ist diese Direktheit aber nicht automatisch ein Vorteil. Dort gewinnt selten der Satz mit der meisten Energie, sondern der mit dem geringsten Widerstand.

Cultural Intelligence: gute Absicht, unvollständige Sensibilität

Mit 68,52 Prozent in Cultural Intelligence zeigt Hermes 4 70B ein respektables, aber keineswegs überragendes Ergebnis. Die Protokolle belegen, dass das Modell problematische oder aggressive Formulierungen in Stellenanzeigen gut entschärfen kann. Aus „kill the competition“ wird „fair zu übertrumpfen“, aus groben Männlichkeitsfloskeln werden neutralere Begriffe. Das ist funktional und oft auch sprachlich sauber.

Die eigentliche Schwäche liegt in den feinen sozialen Signalen. Im geprüften Beispiel blieb ausgerechnet „Fachmann“ stehen, wo eine inklusive Form wie „Fachkraft“ erwartet gewesen wäre. Zudem ließ Hermes die englische Phrase „Work-hard-play-hard-Mentalität“ unübersetzt in einer deutschen Ausschreibung stehen. Beides wirkt klein, ist aber in HR-Kommunikation gerade nicht klein. Inklusive Sprache scheitert selten an der groben Beleidigung. Sie scheitert an Restbeständen alter Normalität.

Auch der Ton ist etwas zu transaktional. Statt einladender, offener Formulierungen setzt das Modell eher auf deklarative Sätze darüber, was das Unternehmen schätzt. Das liest sich korrekt, aber nicht wirklich anschlussfähig. Die gute Nachricht: Hermes entfernt toxische Spitzen zuverlässig. Die weniger gute: Es versteht Inklusion eher als Textbereinigung denn als Perspektivwechsel.

CLI und operative Direktheit: brauchbar, aber nicht brillant

Im CLI Benchmark erreicht Hermes 4 70B 75,67 Prozent. Das ist ordentlich und passt gut zum Speed-Badge. Kurze technische Handlungsanweisungen, strukturierte Befehlsfolgen und pragmatische Lösungsskizzen gehören sichtbar zu den Stärken des Modells. Hier zahlt sich das Instruct-Profil aus: Hermes will Aufgaben lösen, nicht darüber philosophieren.

Dass der Wert nicht noch höher ausfällt, passt ins Gesamtbild. Sobald exakte Ausführung, Sicherheitskontext und Randbedingungen gleichzeitig zählen, bleibt das Modell eher solide als herausragend. Für schnelle Shell-Hilfe und operative Standardfragen ist das absolut brauchbar. Für produktive Hochrisiko-Kommandos sollte man weiter gegenprüfen. Hermes ist in diesem Bereich eher ein flotter Kollege als ein Rechenzentrum mit Gewissen.

Datenschutz und Datenhoheit

Das ausgewiesene Sovereign Risk liegt bei MEDIUM. Die Begründung ist klar: Hermes 4 70B stammt von Nous Research (USA), damit greift für den Anbieter US-Recht einschließlich CLOUD Act. Für Nutzer in Deutschland und der EU bedeutet das, dass US-Behörden unter bestimmten Voraussetzungen Zugriff auf Daten verlangen können, selbst wenn die Verarbeitung physisch außerhalb der USA stattfindet. Das ist für Unternehmenseinsatz keine Panikmeldung, aber ein realer Compliance-Faktor.

Zur konkreten Deployment-Infrastruktur lagen hier keine verifizierten Provider-Daten zu Datenstandort, Speicherfrist oder verfügbarer GDPR-DPA vor. Bekannt ist: Es handelt sich um ein Cloud Open-Weights-Modell über einen externen Anbieter. Die Gewichte sind öffentlich verfügbar, was das Provenienz-Risiko gegenüber geschlossenen Modellen senkt. Die juristische Lage des Cloud-Betriebs verschwindet dadurch allerdings nicht. Für sensible Unternehmensdaten ist also nicht nur das Modell relevant, sondern vor allem der konkret gewählte Endpoint.

Fazit

Hermes 4 70B ist ein Modell mit Charakter, aber keiner, der jede Situation gewinnt. Es ist schnell, günstig, stabil und in vielen Alltagsaufgaben absolut brauchbar. Als Cloud Open-Weights-Generalist via externem Anbieter wirkt es wie ein pragmatisches Werkzeug für Teams, die zügige Antworten wollen und nicht für jeden Prompt Frontier-Preise zahlen möchten. Seine beste Seite zeigt es bei strukturierten, direkten Aufgaben mit klarer Instruktion und überschaubarer Tiefe.

Die Schattenseite ist ebenso klar. Für ein Server-Modell mit 70B dichten Parametern bleibt die Qualität in Code-Audit, tiefem Reasoning und sprachstrenger Dokumentation zu oft hinter dem Anspruch zurück. Besonders kritisch sind die Sprachfehler in deutsch verpflichtenden Aufgaben und die mangelnde Präzision bei Security-Befunden. Das sind keine akademischen Minuspunkte, sondern operative Schwächen. Wer das Modell für technische Reviews, Sicherheitsanalysen oder mehrsprachig verbindliche Workflows einsetzt, sollte Retests und menschliche Kontrolle fest einplanen.

Meine Empfehlung ist deshalb eindeutig: Hermes 4 70B eignet sich gut für schnelle technische Erstentwürfe, Content-Umbauten, Dokumentationsrohfassungen und allgemeine Assistentenarbeit mit klaren Prompts. Für Security, kritische DevOps-Entscheidungen und sprachlich verbindliche Ausgaben taugt es eher als Vorschlagsmaschine denn als letzte Instanz. Über alle Tests hinweg keine nennenswerten Halluzinationen. Das Modell erfindet lieber zu wenig Tiefe, als sich mit frei fabrizierten Fakten zu blamieren.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.