Hermes 4 405B · LLM Model Review

Mit einem Gesamtscore von 70,32 Prozent und dem Speed-Profile-Badge Real-Time DevOps Expert tritt Hermes 4 405B als das auf, was seine Metadaten versprechen: ein großes, dichtes Frontier-Generalistenmodell mit 405 Milliarden Parametern, auf direkte Befehlsausführung getrimmt und durch uncensored Finetuning sichtbar enthemmt, aber nicht automatisch veredelt. Als Cloud Open-Weights-Modell über einen Provider-Endpunkt eingesetzt, liefert es viel Substanz in brauchbarer Zeit, doch sein Charakter ist klar: stark im unmittelbaren Abarbeiten, weniger stark in den feinen Disziplinen von Nuance, Priorisierung und faktenkritischer Selbstdisziplin. Sovereign Risk: MEDIUM — Nous Research ist ein US-Unternehmen und unterliegt damit dem CLOUD Act; die Gewichte sind zwar offen verfügbar, der hier genutzte Cloud-Betrieb bleibt für europäische Nutzer trotzdem juristisch kein neutraler Raum.

Kopfnoten: Stabilität und Zuverlässigkeit

Metrik	Wert	Bewertung	Analyse
Timeout-Rate	0/43	Stabil	Das Modell lief im Test absolut stabil und zuverlässig.
P95-Antwortzeit	49.77 s	Akzeptabel	Vereinzelte Ausreißer, für interaktive Nutzung noch tolerierbar.

Das ist für ein Frontier-Modell mit dichter 405B-Architektur zunächst die gute Nachricht. Hermes 4 405B ist in diesem Lauf nicht weggesackt, nicht in API-Löchern verschwunden und nicht durch Aussetzer aufgefallen. Gerade bei Cloud-Modellen ist das keine Selbstverständlichkeit, sondern Produktionshygiene. Wer mit Agenten-Workflows oder automatisierten Pipelines arbeitet, bekommt hier keinen launischen Endpunkt, sondern einen berechenbaren.

Die zweite Nachricht ist nüchterner. Die offiziell ausgewiesene Generierungsgeschwindigkeit liegt bei 49,64 Tokens pro Sekunde. Das ist schnell genug für ernsthafte Interaktion und passt zum Badge Real-Time DevOps Expert, also einem Profil für zügige technische Aufgaben mit unmittelbarem Antwortbedarf. Man muss diese Zahl aber korrekt lesen: Sie beschreibt die Leistung der Cloud-Infrastruktur des Anbieters, nicht irgendeine allgemein verfügbare Modellgeschwindigkeit. Der Nutzer kauft hier nicht bloß ein Modell, sondern die Qualität des bereitgestellten Endpunkts mit ein. Und trotz ordentlicher Durchschnittsgeschwindigkeit zeigt der Tail mit 49,77 Sekunden P95 bereits, dass nicht jede Anfrage elegant durchrauscht. Für Chat okay. Für eng getaktete Ketten mit vielen abhängigen Schritten schon weniger charmant.

Architektur und Charakter: Instruct zuerst, Freiheit mit Nebenwirkungen

Die zugewiesene Kategorie Instruct, Uncensored-Finetuned erklärt bei Hermes 4 405B erstaunlich viel. Dieses Modell ist kein ausgewiesenes Denkmodell, kein spezialisiertes Coding-Tier und kein orchestrierender Planer. Es ist ein Generalist in der Frontier-Klasse, mit dichter Architektur, also voller aktiver Kapazität bei jedem Token. Von so einem Modell darf man Breite erwarten, hohe Prompt-Folgsamkeit und ein gewisses Selbstverständnis im Umgang mit strukturierten Aufgaben. Genau das liefert Hermes in vielen Benchmarks auch.

Das uncensored Finetuning wirkt hier nicht wie ein grober Eingriff, der das Modell mechanisch beschädigt hätte. Das ist wichtig, denn genau diese Gefahr sieht man bei schlechteren Derivaten regelmäßig. Hermes 4 405B kollabiert nicht, driftet nicht in bizarre Syntax und verliert auch nicht flächig die Form. Aber das Finetuning hebt die Basiskompetenz eben auch nicht magisch an. Man bekommt mehr Bereitschaft, Dinge direkt zu tun. Man bekommt nicht automatisch mehr Urteilsvermögen. Genau an dieser Stelle zeigt Hermes 4 405B seinen Charakter: Es ist willig, oft schnell, häufig brauchbar, aber nicht immer klug genug, um seine eigene Sicherheitsspanne sauber zu halten.

Code Quality und Security: brauchbar, aber kein Auditor mit Biss

Im Modul Code Quality erreicht Hermes 4 405B 67,4 Prozent. Das ist kein Totalschaden, aber für ein Frontier-Modell auch kein Wert, der Ehrfurcht erzeugt. Die qualitative Auswertung zeigt ein recht klares Bild: Hermes liefert eine funktionale deutsche Audit-Tabelle, erkennt die meisten prominenten Schwachstellen, ordnet viele Standardprobleme korrekt ein und bringt sogar Code-Fixes mit. Das ist mehr als nur kosmetische Kompetenz.

Die eigentliche Schwäche liegt tiefer. Bei einem PHP-Sicherheitsaudit listete das Modell 20 Schwachstellen, während der Referenzstandard 19 sauber priorisierte. Der Unterschied klingt auf dem Papier belanglos, ist es aber nicht ganz. Hermes doppelt teilweise Befunde, verpasst dafür andere. Besonders problematisch: Es übersieht explizit mehrere wichtige Punkte, darunter hartkodierte Datenbank-Zugangsdaten, Header-Injection nach bereits erfolgter Ausgabe und ein Reset-Token ohne Ablaufzeit. Noch gravierender ist, dass es bei drei kritischen Lücken den Schweregrad zu niedrig ansetzt, etwa bei Path Traversal, Type Juggling und IDOR. Ein Security-Modell darf Fehler machen. Ein Security-Modell darf aber nicht die falschen Dinge unterschätzen. Genau dort wird aus einem nützlichen Assistenten ein riskanter Berater.

Der Richter moniert zudem, dass Hermes keine Angriffsketten formuliert. Das ist kein akademischer Schönheitsfehler. Wer Sicherheitslücken isoliert benennt, aber nicht zeigt, wie sie sich zu einer vollständigen Kompromittierung verbinden lassen, beschreibt Brände als einzelne Funken. Für Entwickler mag das reichen. Für Priorisierung im Ernstfall nicht. Immerhin: Die formale Ausführung war sauber, die Tabelle verwertbar, die Sprache korrekt, die Fixes grundsätzlich hilfreich. Hermes 4 405B ist in Security-Fragen also nicht blind. Es fehlt ihm eher die letzte Schärfe, die aus Befunden belastbare Risikosteuerung macht.

Mildernd muss man sagen: Für ein Uncensored-Finetuned-Modell ist Security-Audit nicht der eigentliche Daseinszweck. Solche Modelle werden eher wegen ihrer geringen Verweigerung und ihres freien Outputs genutzt als wegen chirurgischer Präzision in DevSecOps. Das entschuldigt die Schwächen nicht, erklärt sie aber.

CLI und technische Exekution: ordentlich, nicht elegant

Im CLI-Benchmark steht Hermes 4 405B bei 78,0 Prozent. Das passt sehr gut zum Speed-Profil. Das Modell ist im technischen Direktvollzug meist nützlich. Es folgt Anweisungen eng, bleibt im erwartbaren Ausgabekorridor und verheddert sich nicht in ausufernden Erklärtexten. Gerade für Shell-nahe Aufgaben ist das eine Tugend. Viele Modelle reden sich um präzise Befehle herum. Hermes liefert eher erst die Lösung und dann die Erläuterung.

Das heißt nicht, dass es hier die Klasse eines spezialisierten Tool- oder DevOps-Modells erreicht. Es wirkt eher wie ein gewissenhafter Sysadmin auf Abruf als wie ein pedantischer Build-Engineer. Im Alltag ist das oft genug. In riskanten Produktionsumgebungen mit destruktiven Kommandos sollte man trotzdem mit Review-Schleife arbeiten. Ein Modell, das im Security-Modul Prioritäten unterschätzt, verdient bei Shell-Befehlen keine blinde Ausführungserlaubnis.

Reasoning und Logik: richtig gedacht, falsch gehorcht

Im Modul Logical Reasoning landet Hermes 4 405B bei 66,08 Prozent. Auch hier wirkt der Rohstoff besser als der Score zunächst vermuten lässt. In einem Metakognitions-Test zum klassischen Wächterrätsel war die eigentliche Lösung korrekt. Das Modell identifizierte die richtige Frage, begründete sie schlüssig und explorierte sogar mehrere Varianten. Inhaltlich war also Substanz vorhanden. Der Punktabzug kam nicht primär aus Denkfehlern, sondern aus schlechter Instruktionsdisziplin.

Metakognitions-Compliance (Reasoning): Das Modell verweigert in 3/5 metacog-Tests die Nutzung der explizit angeforderten <thought>-Tags mit einer konsistenten Policy-Aussage. Die Reasoning-Inhalte sind dabei inhaltlich teilweise korrekt — der Score-Abzug resultiert aus der Format-Verweigerung, nicht aus Denkfehlern. Zum Vergleich: In den tag-freien Reasoning-Tests liegt das Modell sichtbar höher; CrucibleMark bewertet hier bewusst die native Zero-Shot-Instruktions-Compliance als reales Alltagsmerkmal.

Dazu kommt ein zweites, strukturelles Problem. Das Sprachversagen ist kein isolierter Ausreißer. Über mehrere Aufgaben im Reasoning-Bereich zeigt das Modell ein konsistentes Muster: Bei simultanen Vorgaben aus Sprache, Länge und Format verliert es die Sprachvorgabe als erste Bedingung. In drei Metakognitions-Aufgaben antwortete Hermes trotz expliziter Deutsch-Vorgabe überwiegend auf Englisch. Das ist nicht nur ein Stilproblem, sondern ein handfester Compliance-Mangel. Wer ein Modell in deutsche Arbeitsabläufe, Prüfpfade oder Kundentexte einbindet, kann sich eine solche Schlampigkeit nicht als Charme verkaufen.

In drei Aufgaben im Reasoning-Bereich verletzte das Modell damit die explizite Sprachvorgabe Deutsch und antwortete überwiegend auf Englisch. Das System verhängte dafür automatische Abzüge im Compliance-Teil der Bewertung; die inhaltliche Qualität der Antwort ist damit nur noch begrenzt relevant, weil die Strafe regelbasiert greift. Genau so soll ein harter Constraint funktionieren: Wer die Sprache ignoriert, verliert Punkte, auch wenn die Logik stimmt.

Das ist ein ziemlich typischer Defekt für ein Instruct-Modell mit uncensored Schlagseite. Es kann durchaus denken. Aber wenn mehrere Anforderungen gleichzeitig im Raum stehen, priorisiert es nicht immer die richtigen. Hermes 4 405B ist deshalb kein schlechtes Reasoning-Modell. Es ist ein Reasoning-Modell mit Disziplinproblem.

UX Writing, Content Transformation und Dokumentation: stark in Arbeit, schwächer in Wirkung

Im UX Writing erreicht Hermes 4 405B 73,15 Prozent. Das ist solide und passt zu seiner Instruct-Natur. Solche Modelle sind oft dann am besten, wenn Ton, Ziel und Form halbwegs klar gesetzt sind. Hermes kann verständlich, brauchbar und funktional schreiben. Was ihm seltener gelingt, ist die mühelose Selbstverständlichkeit exzellenter Microcopy. Es schreibt so, dass man den Auftrag erkennt. Nicht immer so, dass man den Text behalten will.

Etwas besser sieht es bei der Content Transformation mit 76,85 Prozent aus. Der qualitative Ausschnitt zu einem deutschen YouTube-Skript zeigt die Stärke des Modells ziemlich klar. Es erfüllt alle Pflichtteile, bleibt vollständig auf Deutsch, baut Timestamps, Annotations, Engagement-Elemente und ein Easter Egg ein und liefert ein produktionsreifes Ergebnis. Das ist keine kleine Leistung. Viele Modelle scheitern schon daran, solche langen Mehrfachanforderungen vollständig zusammenzuhalten.

Und doch bleibt auch hier die Differenz zur Spitze sichtbar. Der Judge beschreibt das Skript als funktional und einsatzfähig, aber emotional weniger optimiert als der Referenztext. Der Hook ist da, aber nicht mit der Wucht, die den Zuschauer packt. Der CTA ist da, aber eher Standardware als psychologischer Schlusspunkt. Die Produktionshinweise sind da, aber gröber. Anders gesagt: Hermes kann Content bauen, aber nicht immer Spannung komponieren. Das ist der Unterschied zwischen einem brauchbaren Creator-Assistenten und einem Modell, das die Dramaturgie des Mediums wirklich verstanden hat.

In der Documentation Quality mit 64,81 Prozent wird dieser Charakter noch deutlicher. Hermes kann strukturieren, zusammenfassen und Sachverhalte verständlich machen. Aber Dokumentation auf hohem Niveau verlangt Präzision, Priorisierung und didaktischen Takt. Genau dort verliert das Modell sichtbar Boden. Es ist nicht unklar. Es ist nur oft weniger trennscharf, als ein Frontier-Modell dieser Größe sein sollte.

Cultural Intelligence: gutes Deutsch, nur nicht das beste im Raum

Im Modul Cultural Intelligence kommt Hermes 4 405B auf 68,64 Prozent. Der Blick in die Protokolle zeigt ein fast schon sympathisches Muster: Das Modell versteht die Aufgabe, entfernt toxische Sprache sauber, adressiert Gender-Bias vernünftig und schreibt idiomatisches Deutsch auf gutem Niveau. Ein Richter vergibt für einen deutschen HR-Text 90 von 100 Punkten auf Regelbasis und lobt die insgesamt kompetente, regelkonforme Umschreibung.

Warum also der nur mittelstarke Modulwert? Weil Hermes zwar korrekt schreibt, aber nicht immer den kulturell feinsten Griff hat. In einem HR-Text benutzt es eine eher imperative Formulierung, wo die deutsche Best Practice den weicheren, inklusiveren Konjunktiv bevorzugt. Es ersetzt problematische Begriffe brauchbar, aber weniger elegant. Die Ansprache bleibt funktional, während die Referenz wärmer, idiomatischer und einladender formuliert. Das ist kein peinlicher Fehltritt. Eher der Unterschied zwischen sauberem Geschäftsdeutsch und Texten, die tatsächlich nach Menschen klingen.

Halluzinationen: der eigentliche Warnhinweis

Hier wird Hermes 4 405B unangenehm. Die Hard-Constraint-Daten nennen zwei Halluzinationsbefunde im Tool-Use-Bereich. In zwei Aufgaben generierte das Modell Inhalte, die nicht aus dem abgerufenen Tool-Ergebnis stammten, sondern erfunden waren. Der Score wurde deshalb durch ein Halluzinations-Cap begrenzt. Für content-kritische Aufgaben ist das kein kosmetischer Abzug, sondern ein Vertrauensbruch.

Das verdient einen eigenen Warnhinweis, weil es den Charakter des Modells entlarvt. Hermes 4 405B ist in vielen Modulen direkt, produktiv und kooperativ. Aber genau diese Bereitschaft kippt in Tool-Szenarien stellenweise in Übermut. Wenn ein Modell auf Basis externer Daten arbeiten soll, darf es nicht kreativ ergänzen. Es muss lesen, nicht fabulieren. Wer Recherche, faktengebundene Reports oder agentische Tool-Pipelines baut, sollte Hermes nur mit enger Nachprüfung einsetzen. In zwei Tool-Use-Aufgaben war das Verhalten laut Protokoll disqualifizierend. Härter kann man es kaum formulieren, ohne unhöflich zu werden.

Token-Effizienz und Kostenprofil

Hermes 4 405B verhält sich insgesamt token-ökonomisch. Kein Modul überschreitet den erwarteten Verbosity-Rahmen. Das ist bei einem Modell dieser Größenklasse ein echter Vorzug, denn große Modelle kompensieren schwächere Präzision gern mit Textmasse. Hermes tut das hier nicht. Im Gegenteil: In Code Quality, Content Transformation und Documentation Quality bleibt es jeweils unter dem Fleet-Median. Das Modell schreibt also nicht unnötig viel, sondern meistens ungefähr so viel, wie der Job verlangt.

Für den API-Einsatz ist das relevant, weil Effizienz bei Cloud-Modellen immer auch Kostenkontrolle bedeutet. Die angegebenen Preise von 1,0 US-Dollar pro Million Eingabetokens und 3,0 US-Dollar pro Million Ausgabetokens sind vernünftig, aber erst die kontrollierte Ausgabelänge macht daraus ein brauchbares Kostenprofil. Hermes ist kein Schnäppchen, aber auch kein Schwätzer auf Firmenkosten.

Datenschutz und Datenhoheit

Die verfügbaren Card-Daten ergeben ein berechnetes Sovereign Risk von MEDIUM. Die Begründung ist nachvollziehbar: Nous Research ist ein US-Unternehmen. Damit greift für den Anbieter die US-Jurisdiktion einschließlich CLOUD Act. Für Unternehmen in Deutschland und der EU bedeutet das konkret, dass US-Behörden unter bestimmten Voraussetzungen Zugriff auf Daten verlangen können, auch wenn diese physisch in Europa gespeichert wären. Das ist kein theoretischer Kulturkampf, sondern geltendes Recht.

Zur konkreten Deployment-Infrastruktur des verwendeten Cloud-Providers lagen in den bereitgestellten Daten keine weiter verifizierten Angaben zu Datenstandort, Speicherfrist oder einer verfügbaren GDPR-DPA vor. Damit bleibt für europäische Unternehmenskunden ein relevanter Blindfleck. Die offene Gewichtsverfügbarkeit mildert das Provenienzrisiko des Modells selbst. Sie beseitigt aber nicht automatisch die Compliance-Fragen des tatsächlich genutzten Cloud-Endpunkts.

Fazit

Hermes 4 405B ist ein Modell mit klar erkennbarem Charakter. Als Frontier-Generalist mit dichter 405B-Architektur und Instruct/Uncensored-Finetuning liefert es direkte, meist nützliche Antworten, gute technische Brauchbarkeit und erfreulich stabile Cloud-Performance. Es kann Skripte bauen, Anweisungen befolgen, strukturierte Ausgaben sauber abarbeiten und bleibt dabei token-ökonomisch. Das ist die gute Seite.

Die schlechtere Seite ist präziser als bloßes „hat Schwächen“. Hermes verliert bei komplexen Mehrfachvorgaben zu oft die Disziplin, besonders bei Sprach- und Format-Compliance im Reasoning. Im Security-Bereich erkennt es viel, priorisiert aber nicht immer richtig. Und in Tool-Use-Szenarien halluziniert es stellenweise dort, wo Halluzinationen schlicht nicht erlaubt sind. Das ist kein Ausrutscher für den Stammtisch, sondern ein echtes Einsatzrisiko.

Meine Empfehlung fällt deshalb klar aus. Für interaktive technische Assistenz, Content-Umbau, strukturierte Schreibaufgaben und schnelle DevOps-nahe Hilfe ist Hermes 4 405B absolut interessant, gerade als Cloud Open-Weights-Modell mit ordentlicher Geschwindigkeit via Anbieter-Endpunkt. Für Security-Audits, faktenkritische Recherche, autonome Tool-Pipelines und deutschsprachige High-Compliance-Workflows braucht es dagegen ein enges Geländer aus Validierung, Retry-Logik und menschlicher Kontrolle. Hermes 4 405B ist kein Blender. Aber es ist auch kein Modell, dem man die Schlüssel kommentarlos in die Hand drückt.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.