LLM Model Review
Erstellt am · Instruction-Tuned
Mit einem Gesamtscore von 67.34% zeigt Hermes 4 14B (Q4_K_M), was ein Generalist der Desktop-Klasse mit 14,0 Milliarden dichten Parametern heute leisten kann: brauchbare Breite, ordentliche Strukturtreue, aber eben auch die sehr sichtbaren Kanten einer aggressiv komprimierten Q4-Variante. Der Speed-Profile-Badge Interactive Tool Expert passt erstaunlich gut zum Charakter dieses Modells: schnell genug für den Dialog, oft hilfreich bei klaren Arbeitsaufträgen, aber nicht tief genug für jede heikle Entscheidung. Sovereign Risk: MEDIUM — die offenen Gewichte stammen von NousResearch aus den USA; bei lokaler Nutzung greift kein CLOUD-Act-Zugriff auf laufende Prompts, die US-Provenienz der Weights bleibt aber als Souveränitätsfaktor bestehen.
Kopfnoten: Stabilität und Zuverlässigkeit
| Metrik | Wert | Bewertung | Analyse |
|---|---|---|---|
| Timeout-Rate | 4/43 | Sporadisch | Das Modell zeigt sporadische Aussetzer, die in der Praxis Retrys erfordern würden. Für ein lokales Desktop-Modell ist das kein Schönheitsfehler, sondern ein Hinweis auf ein Setup nahe an der Hardware-Grenze. |
| P95-Antwortzeit | 139.27 s | Kritisch | Extreme Tail-Latenz. Das Modell streut massiv und ist für zeitkritische Prozesse ungeeignet. Wer Pech hat, wartet in fünf Prozent der Fälle deutlich über zwei Minuten. |
Architektur und Charakter: Instruct zuerst, Denken nur wenn es reicht
Die vorab vergebene Kategorie Instruct, Thinking-Optional trifft Hermes 4 14B (Q4_K_M) ziemlich präzise. Das Modell antwortet meist direkt, lösungsorientiert und ohne den Hang zum selbstverliebten Erklärmonolog, der manchen Reasoning-Modellen jede Alltagstauglichkeit austreibt. Zugleich sieht man an den Reasoning-Ergebnissen, dass hier mehr Substanz vorhanden ist als bei einem reinen Befehlsempfänger. Extended Thinking wäre grundsätzlich als Architekturfähigkeit denkbar, im Benchmark lief das Modell aber im Standardmodus. Bewertet wird also nicht das theoretische Potenzial, sondern das Verhalten ab Werk.
Genau darin liegt der Kern dieses Modells. Es ist kein Denkapparat, der jede Aufgabe in Einzelteile zerlegt. Es ist ein Instruktionsmodell, das oft erstaunlich weit kommt, solange der Auftrag klar ist, das Format nicht zu fragil wird und die Aufgabe keine überdurchschnittliche Tiefenschärfe verlangt. Wenn es scheitert, scheitert es nicht heroisch, sondern profan: durch Längenüberschreitungen, Tabelleninstabilität, Timing-Schwächen und gelegentliche Halluzinationen bei toolgestützten Aufgaben. Das ist weniger glamourös als ein Logikfehler, in der Praxis aber oft störender.
Geschwindigkeit und lokaler Betrieb
Auf dem lokalen Referenzsystem Apple Silicon M4, 24GB Unified Memory (Shared RAM/VRAM) erreicht Hermes 4 14B (Q4_K_M) laut Leaderboard 30.3 Tokens pro Sekunde. Das ist für ein 14B-Dense-Modell in Q4-Quantisierung ein vernünftiger Wert und erklärt auch den Badge Interactive Tool Expert: Dieses Modell ist nicht für Massenbatching gebaut, sondern für interaktive Sitzungen, in denen nach einer kurzen Denkpause eine brauchbare Antwort erscheinen soll.
Der Haken steckt im Tail. Die Durchschnittswahrnehmung ist flotter als die Realität in Ausreißern. Die Kombination aus 14B-Dense-Modell, langem Kontextfenster von 128K Tokens und einem Testsystem mit 24 GB macht das Setup empfindlich, sobald Antworten lang werden oder Aufgaben strukturell kompliziert ausufern. Anders gesagt: Die reine Tokenrate ist ordentlich, die Praxisstabilität ist es nicht durchgehend. Für kurze Dialoge und klar umrissene Assistenzjobs passt das Profil. Für unbeaufsichtigte Agentenläufe mit langen Ketten ist es eine Wette mit zu vielen schlechten Quoten.
Positiv ist die Token-Ökonomie. Kein Modul sprengt den erwartbaren Verbosity-Rahmen. Dennoch produziert Hermes 4 14B (Q4_K_M) in Documentation Quality mit 3562 statt 2497 Tokens im Schnitt den Faktor 1,43, in Code Quality 2921 statt 2112 den Faktor 1,38 und in UX Writing 1689 statt 1271 den Faktor 1,33. Das liegt noch im grünen Bereich, ist bei einem lokalen Modell aber kein Nebenthema. Mehr Text bedeutet hier nicht nur mehr Worte, sondern längere Wartezeit und höhere Wahrscheinlichkeit, an die Stabilitätskante zu geraten.
Code Quality und Security: brauchbarer Blick, wacklige Hand
Die Zahlen sagen es trocken, die Protokolle illustrieren es schmerzhaft: 62.5% in Code Quality sind kein Totalausfall, aber weit entfernt von einem Modell, dem man eine Security-Review blind überlässt. Hermes 4 14B (Q4_K_M) erkennt einige klassische Schwachstellen durchaus korrekt. SQL Injection, unsichere Cookies, Lockere Vergleiche bei API-Keys, Klartext-Passwörter und sinnvolle Fixes wie Prepared Statements oder password_hash() sind im Werkzeugkasten vorhanden. Das Modell ist also nicht ahnungslos. Es ist nur nicht verlässlich gründlich.
Das Problem ist die Synthese. In einem Security-Audit zählt nicht, ob ein Modell fünf Löcher findet. Es zählt, ob es die Kette versteht. Genau dort verliert Hermes 4 14B (Q4_K_M) an Schärfe. Im Protokoll fehlen unter anderem IDOR, Session Fixation, Reset-Token-Ablauf, schwache Token-Generierung via md5(time() . rand()), XSS im Welcome-Flow und mehrere Hardcoded-Secrets. Noch gravierender: Die Risikobewertung bleibt stellenweise lokal, obwohl die eigentliche Gefahr in der Verkettung liegt. Eine mittelmäßig bewertete Einzelstelle kann in der Angriffskette kritisch sein. Das Modell sieht zu oft den Baum und zu selten den Brandherd.
Hinzu kommt ein struktureller Defekt, der in echten Reviews Gift ist. In einem Code-Quality-Test lief die Ausgabe in eine erkannte Generationsschleife, die Tabelle wurde beschädigt und der Textblock musste abgeschnitten werden. Das ist keine Petitesse. Wer eine Schwachstellenliste als Tabelle anfordert, braucht ein verwertbares Artefakt und keinen halb zerlegten Markdown-Schrott.
Tabellen-Robustheit (Code Quality): Das Modell zeigt einen prompt-sensitiven Tabellen-Generierungsfehler. Es lieferte in 3 der Code-Quality-Tests keine verwertbare Tabelle (Endlosschleife / Token-Abbruch), obwohl die Analyse-Texte inhaltlich oft begonnen wurden. Der Fehler tritt primär bei Prompts ohne spezifische Markdown-Beispielzeilen auf. Anmerkung: Dieser Mangel ließe sich im Produktiveinsatz durch gezieltes Prompt-Engineering (z. B. Few-Shot-Beispielzeilen) einfach ausgleichen. CrucibleMark testet jedoch gezielt die native Zero-Shot-Prompt-Robustheit eines Modells. Da Modelle solch unaufgeregte Format-Anfragen out-of-the-box abfangen können sollten, wird diese Fragilität hier trotz des Workarounds als realer Alltagsmangel betrachtet und schlägt sich konsequent im verringerten Score nieder.
Für den Security-Einsatz ist das Urteil deshalb gespalten. Als lokaler Assistent für erste Triage, saubere Fix-Vorschläge und bekannte Bug-Klassen ist Hermes 4 14B (Q4_K_M) brauchbar. Für ernsthafte Sicherheitsanalyse mit Kettenlogik, Priorisierung und belastbarer Vollständigkeit fehlt ihm die letzte Präzision. Es sieht genug, um nützlich zu sein. Es übersieht genug, um gefährlich zu werden, wenn man ihm zu sehr vertraut.
Reasoning und Logik: besser als sein Temperament vermuten lässt
Mit 64.02% im Bereich Logical Reasoning liefert Hermes 4 14B (Q4_K_M) keine Sternstunde, aber auch keinen Beweis intellektueller Unterernährung. Die Protokolle zeigen ein Modell, das logische Aufgaben sauber lösen kann, wenn sie klar umrissen sind. In der klassischen Wächter-und-Türen-Aufgabe arbeitet es korrekt, nutzt die geforderten <thought>-Tags, prüft mehrere Ansätze und landet sauber bei der richtigen Frage. Das ist nicht brillant inszeniert, aber methodisch solide.
Gerade hier wirkt die Kategorie Thinking-Optional plausibel. Ohne aktiviertes erweitertes Denken versucht das Modell nicht, sich künstlich Tiefe anzudichten. Es denkt sichtbar genug, um die Aufgabe zu lösen, bleibt aber näher an der Nutzanweisung als an einer akademischen Herleitung. Das ist für viele Alltagsfälle sogar angenehm. Der Nachteil zeigt sich in der didaktischen Breite. Gegen stärkere Reasoning-Modelle fehlt die zusätzliche Erklärungsebene, das Ausformulieren allgemeiner Prinzipien und die elegant aufgeräumte Darstellung.
Entscheidend ist: Die Logik bricht nicht strukturell zusammen. Hermes 4 14B (Q4_K_M) ist kein Blender, der mit viel Text schwache Schlussfolgerungen maskiert. Wo es punktet, dann durch echte Korrektheit. Wo es verliert, dann eher gegen Modelle, die dieselbe richtige Lösung tiefer, schöner und robuster aufbereiten. Das ist ein respektabler Befund für ein Desktop-Modell in Q4. Nur sollte man ihn nicht romantisieren. Es denkt ordentlich. Es denkt nicht überragend.
Content Transformation: kreativ genug, aber das Wortlimit verliert zuerst
Mit 73.3% gehört Content Transformation zu den stärkeren Bereichen dieses Modells. Hermes 4 14B (Q4_K_M) kann Stoff umarbeiten, strukturieren und in ein anderes Format überführen, ohne sofort hölzern oder steril zu wirken. Das gilt besonders dann, wenn ein klarer Zielstil vorgegeben ist. Im Protokoll zum Video-Skript zeigt das Modell ein gutes Verständnis für Hook, Screen-Anmerkungen, gesprochene Sprache und Produktionslogik. Es weiß also, wie modernes Creator-Handwerk aussieht. Nur trifft es die Taktung nicht sauber genug.
Das Problem ist hier nicht Ideenarmut, sondern Disziplin. Der umgeschriebene Ablauf ist vollständig und sprachlich brauchbar, aber deutlich zu lang und zeitlich unrealistisch segmentiert. Ein Abschnitt von 1:30 bis 2:30 für vier Tutorial-Schritte wirkt wie Planung aus der Vogelperspektive, nicht aus der Realität eines Bildschirmvideos. Kurz gesagt: Das Modell kann Dramaturgie spielen, aber nicht immer auf die Sekunde rechnen.
Dazu kommt ein strukturelles Muster, das man nicht wegreden sollte. In zwei Aufgaben dieses Moduls verlor Hermes 4 14B (Q4_K_M) das Wortlimit als erste Bedingung. Genau das ist ein klassischer Instruct-Fehler, wenn gleichzeitig Stil, Sprache, Struktur und Länge kontrolliert werden sollen. Das Modell möchte gefallen und erklärt dann lieber zu viel als zu knapp. Für freie Schreibaufgaben ist das oft charmant. Für Produktionsprompts mit harten Grenzen ist es ein echter Defekt.
Das Längenproblem ist kein isolierter Ausreißer. Über mehrere Aufgaben im Content-Transformation-Bereich zeigt das Modell ein konsistentes Muster: Bei simultanen Vorgaben aus Sprache, Länge und Format verliert es das Wortlimit als erste Bedingung. Betroffen waren unter anderem eine Kurzfassung mit strikt gesetzter Obergrenze sowie ein auf etwa fünf Minuten getaktetes Videoskript, das deutlich ausuferte.
In einer Aufgabe im Content-Transformation-Bereich überschritt das Modell die explizite Wortvorgabe von 250 um 52%. Das System verhängte einen automatischen Abzug von 16.40 Punkten, also 20% des erreichbaren Scores. Die inhaltliche Qualität der Antwort ist damit irrelevant. Die Strafe greift unabhängig davon.
In einer weiteren Aufgabe im Content-Transformation-Bereich überschritt das Modell die explizite Wortvorgabe von 900 um 48%. Das System verhängte einen automatischen Abzug von 17.60 Punkten, ebenfalls 20% des erreichbaren Scores. Auch hier gilt: Nicht der Stil wurde bestraft, sondern die Missachtung einer klaren Grenze. Wer Briefings nicht einhält, schreibt am Bedarf vorbei, selbst wenn der Text an sich brauchbar ist.
UX Writing und Mikrotext: zu schwer, zu lang, zu wenig chirurgisch
Der Wert von 56.65% ist kein Betriebsunfall, sondern ein treffendes Urteil über die Grenzen dieses Modells. UX Writing verlangt Verdichtung, Tonkontrolle, Priorisierung und ein feines Gespür dafür, was man weglässt. Hermes 4 14B (Q4_K_M) kann durchaus freundlich formulieren. Es kann auch strukturiert formulieren. Aber es schreibt zu oft wie ein allgemeiner Assistent, nicht wie jemand, der auf einer kleinen Fläche eine große Wirkung erzielen muss.
Die Schwäche liegt weniger in der Grammatik als in der Verdichtung. Gute Mikrotexte sind keine Mini-Essays. Sie sind Präzisionswerkzeuge. Hier fehlt Hermes 4 14B (Q4_K_M) die letzte Härte im Schnitt. Wenn ein Modell in UX-Aufgaben über das Ziel hinausschießt, dann merkt man sofort, dass sein Instruct-Kern eher auf vollständige Hilfestellung als auf radikale Kürze trainiert ist. Das ist für Chat angenehm. Für Interfaces ist es oft das falsche Reflexmuster.
Documentation Quality: ordentliches Handwerk, aber nicht die obere Regalhöhe
Mit 64.83% liefert Hermes 4 14B (Q4_K_M) in der Dokumentation eine passable, aber unspektakuläre Leistung. Das Modell kann erklären, gliedern und Zusammenhänge lesbar machen. Gerade für lokale Assistenz bei internen Notizen, How-tos oder ersten Entwürfen von Doku ist das nützlich. Es fällt nicht durch chaotische Struktur oder grobe Unverständlichkeit auf.
Aber auch hier ist die Handschrift der Q4-Kompression sichtbar. Die Antworten werden länger als nötig, ohne im gleichen Maß an Präzision zu gewinnen. Ausreichend Struktur ist da, exzellente editorische Verdichtung eher nicht. Für Leser bedeutet das: Man bekommt meist alles Wichtige, nur nicht immer in der knappsten und schärfsten Form. Das Modell schreibt eher wie ein gewissenhafter Praktikant als wie ein erfahrener Redakteur. Solide Aktenlage, wenig literarische Grazie.
Cultural Intelligence: sprachlich sicher, kulturell nicht fein genug
Mit 73.6% zeigt Hermes 4 14B (Q4_K_M) in Cultural Intelligence zunächst eine Stärke, die man bei offenen lokalen Modellen nicht als selbstverständlich behandeln sollte: Es bleibt sauber in der geforderten Sprache und liefert idiomatisches Deutsch. Das ist die gute Nachricht. Die schlechtere lautet, dass sprachliche Korrektheit noch keine kulturelle Präzision ist.
Das Protokoll zur inklusiven Umschreibung eines Stellenprofils offenbart den blinden Fleck deutlich. Das Modell benutzt Formulierungen wie „dynamischen Fachmann“ und „Der Kandidat“ und verfehlt damit den Kern der Aufgabe. Das ist nicht bloß eine Geschmacksfrage, sondern ein inhaltlicher Fehler. Wer explizit entgendern und eine einladende, inklusive Tonlage herstellen soll, darf nicht in männliche Standardformen zurückkippen. Hermes 4 14B (Q4_K_M) schreibt in solchen Momenten korrektes Deutsch, aber kein kulturell hinreichend sensibles Deutsch.
Man muss das klar sagen: Für sachliche Textarbeit in deutscher Sprache reicht die Kompetenz oft aus. Für heikle Umschreibungen in HR, Diversity-Kommunikation oder kulturabhängige Tonlagen fehlt die Nuance. Das Modell versteht den Auftragstyp, aber nicht immer dessen sozialen Schwerpunkt. Es übersetzt dann den Text, ohne die Haltung vollständig mitzunehmen.
CLI und Tool-Use: stark in der Exekution, unsauber bei Faktenbindung
Der CLI-Benchmark mit 85.56% ist eine der klaren Stärken. Hermes 4 14B (Q4_K_M) versteht operative Aufgaben, arbeitet in handlungsnahen Kommandostrukturen und liefert im Terminal-Kontext offenbar deutlich verlässlicher als in feinmotorischen Schreibdisziplinen. Das passt auch zum Gesamtcharakter: ein lokaler Assistent, der lieber etwas tut als lange darüber zu sprechen.
Diese Stärke wird allerdings im Tool-Use-Bereich teilweise wieder untergraben. Der ToolUse-Score von 45.0% ist die rote Lampe auf dem Armaturenbrett. Hier tauchten nicht nur schwächere Syntheseleistungen auf, sondern zwei dokumentierte Halluzinationsfälle. Und Halluzinationen nach Tool-Abruf sind die schlechte Sorte. Nicht freies Assoziieren, sondern das Erfinden von Inhalten, die gerade eben aus einer externen Quelle hätten gebunden werden müssen.
Halluzinationen: der eigentliche Vertrauensbruch
Hermes 4 14B (Q4_K_M) halluziniert nicht flächendeckend, aber dort, wo es geschieht, ist es gravierend. In zwei Tool-Use-Aufgaben generierte das Modell Inhalte, die nicht aus dem abgerufenen Tool-Ergebnis stammten. Der Score wurde deshalb durch einen Halluzinations-Cap begrenzt. Das ist kein kosmetischer Malus, sondern ein Vertrauensbruch im denkbar ungünstigsten Szenario.
Gerade bei Recherche, Faktenberichten oder Agenten-Workflows ist das disqualifizierend. Ein Modell darf bei freier Ideation kreativ sein. Es darf nach einem Tool-Abruf nicht so tun, als habe es Dinge gesehen, die nie geliefert wurden. Für produktive Pipelines heißt das unmissverständlich: Tool-gebundene Ausgaben dieses Modells gehören hinter Validierung, nicht direkt in den Versand.
Datenschutz und Datenhoheit
Da Hermes 4 14B (Q4_K_M) als offene Gewichte lokal betrieben werden kann, entsteht im geprüften Setup kein automatischer Abfluss von Prompts an einen Cloud-Anbieter. Das ist für viele Unternehmen bereits die halbe Miete. Die Provenienz der Gewichte bleibt dennoch relevant: Nous Research Inc. sitzt in San Francisco, USA, das berechnete Sovereign Risk liegt bei MEDIUM. Entscheidend ist die Begründung: Die US-Jurisdiktion wäre bei einer API-Nutzung CLOUD-Act-relevant, bei der lokalen Ausführung der Open-Weights-Variante aber gerade nicht.
Die Vendor-Card nennt lokalen oder Drittanbieter-Betrieb als Datenstandort, 0 Tage Datenspeicherung für die Modellquelle selbst und kein GDPR DPA von Nous Research. Für rein selbst gehostete Nutzung ist das weniger dramatisch, weil Nous hier gar nicht als laufender Verarbeiter Ihrer Daten auftritt. Wer das Modell jedoch über fremde Hosting-Dienste einsetzt, verschiebt das Compliance-Thema schlicht auf diesen Hoster. Dann zählen dessen Vertrag, Jurisdiktion und Auftragsverarbeitung, nicht die romantische Idee von Open Weights.
Fazit
Hermes 4 14B (Q4_K_M) ist ein charaktervolles lokales Modell mit klarer Nützlichkeit und klaren Grenzen. Es eignet sich als allgemeiner Assistent für strukturierte Aufgaben, CLI-nahe Hilfestellung, erste Code-Reviews, Dokumentationsentwürfe und alltägliche Schreibarbeit mit überschaubarem Risiko. Die Q4-Quantisierung macht das Paket auf dem Testsystem praktikabel, ohne es in die Belanglosigkeit zu schrumpfen. Das verdient Anerkennung.
Aber dieses Modell hat Sollbruchstellen, und sie sind nicht subtil. Die Tabellenrobustheit in Code-Aufgaben ist fragil. Harte Längenvorgaben werden im Content-Bereich wiederholt gerissen. Tool-gebundene Fakten werden in Einzelfällen halluziniert. Und die Tail-Latenz samt 4/43 Timeouts macht klar, dass der Betrieb auf dieser Hardware-Konfiguration zwar möglich, aber nicht durchgehend souverän ist. Die offene Weights-Provenienz ist MEDIUM riskant, weil sie aus einem US-Unternehmen stammt, auch wenn bei lokaler Ausführung kein externer Datentransfer erzwungen wird.
Unterm Strich ist Hermes 4 14B (Q4_K_M) kein Modell für blinden Vertrauensvorschuss. Es ist ein brauchbarer, teilweise bemerkenswert kompetenter lokaler Arbeiter, der beaufsichtigt deutlich besser aussieht als unbeaufsichtigt. Wer einen günstigen Allrounder für den Schreibtisch sucht, bekommt hier Substanz. Wer ein präzises Produktionsinstrument für Security, Tool-Faktenbindung und harte Constraints erwartet, sollte weiterziehen. Dieses Modell ist nützlich. Es ist nur nicht aus einem Stück.
Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.