Hermes 4.3 36B Q6_K (GGUF) · LLM Model Review

Mit einem Gesamtscore von 70.09% gibt sich Hermes 4.3 36B Q6_K (GGUF) als eigensinniger Generalist: stark genug, um in mehreren Disziplinen respektabel mitzuspielen, aber zu widerspenstig und zu langsam, um als unauffälliges Arbeitstier durchzugehen. Der Speed Profile Badge Batch Tool Expert passt erstaunlich gut. Dieses Modell will eher in Stapelverarbeitung, längeren Läufen und strukturierten Aufgaben arbeiten als im schnellen Dialog. Als dichtes 36B-Modell in der Server-Klasse sollte man hohe Erwartungen an Breite und Reife haben. Genau daran wird es hier gemessen. Sovereign Risk: MEDIUM — NousResearch ist ein US-Anbieter offener Gewichte; auch ohne eigene Cloud-API bleibt die Provenienz der Weights an eine US-Jurisdiktion mit CLOUD-Act-Bezug gekoppelt.

Kopfnoten: Stabilität und Zuverlässigkeit

Metrik	Wert	Bewertung	Analyse
Timeout-Rate	13/43	Unzuverlässig	Das Modell ist unzuverlässig und bricht in der Praxis signifikant oft weg. Bei einem lokalen Open-Weights-Modell dieser Größenklasse ist das kein abstrakter Schönheitsfehler, sondern ein Hardware-Ceiling-Signal. Auf diesem Setup ist die Konfiguration für unbeaufsichtigte Agentenläufe faktisch nicht einsetzbar.
P95-Antwortzeit	503.91 s	Kritisch	Extreme Tail-Latenz. Das Modell streut massiv und ist für zeitkritische Prozesse ungeeignet. Selbst wenn viele Antworten inhaltlich brauchbar sind, zerstören solche Ausreißer jeden Arbeitsfluss.

Architektur und Charakter: Instruct trifft Agentic, aber ohne den Nimbus des Orchestrators

Die Vorab-Klassifikation als Instruct- und Agentic-Modell beschreibt Hermes erstaunlich präzise. Es antwortet meist direkt, strukturiert und aufgabennah, ohne die ausufernde Selbstbespiegelung klassischer Thinking-Modelle. Gleichzeitig zeigt es in mehreren Aufgaben ein Gespür für Planbarkeit, Ablauf und Form. Das ist kein Modell, das mit poetischem Umweg glänzt. Es will liefern.

Wichtig ist aber die zweite Ebene. Agentic heißt hier nicht, dass man jede Schwäche bei exakter Exekution großzügig entschuldigen sollte. Hermes ist kein ausgewiesener Agentic-Orchestrator, der Unteraufgaben elegant an Subsysteme delegiert und selbst vor allem die Strategie hält. Es ist ein generalistisches, dichtes 36B-Modell, also volle aktive Kapazität bei jeder Anfrage. Bei 36 Milliarden Parametern darf man mehr erwarten als bloß gute Absichten in Tabellenform. Wer Server-Klasse beansprucht, muss auch unter Last Haltung zeigen. Genau dort beginnt Hermes zu wackeln.

Geschwindigkeit: Batch statt Gespräch

Auf dem lokalen Referenzsystem Apple Silicon M4, 24GB Unified Memory (Shared RAM/VRAM) lief Hermes 4.3 36B Q6_K (GGUF) mit 8.2 Tokens pro Sekunde. Das ist für ein lokal betriebenes 36B-Dense-Modell in Q6_K-Quantisierung nicht absurd, aber im Alltag klar auf der behäbigen Seite. Der Badge Batch Tool Expert ist deshalb keine Zierde, sondern eine Warnplakette mit ehrlichem Text: Dieses Modell eignet sich eher für längere, weniger zeitkritische Durchläufe als für interaktive Arbeit mit engem Feedback-Rhythmus.

Der eigentliche Makel ist nicht die nackte Tokenrate, sondern die Kombination aus niedriger Geschwindigkeit und brutalem Latenzschwanz. Wenn fünf Prozent der Anfragen über 503.91 Sekunden liegen, dann hat man kein leicht träges Modell mehr vor sich, sondern eines, das den Nutzer regelmäßig aus dem Kontext reißt. Bei einem dichten 36B-Modell auf dem Testsystem ist das zudem ein Speicherproblem mit Ansage. Die 24-GB-Grenze ist hier kein theoretischer Rand, sondern die Wand, gegen die Hermes immer wieder fährt.

Immerhin bleibt das Modell token-ökonomisch. Kein Modul überschreitet den erwarteten Verbosity-Rahmen. Das ist mehr als ein Nebensatz, denn bei lokaler Ausführung heißt weniger Text oft schlicht: weniger Wartezeit. Hermes redet nicht unnötig viel. Es denkt oder hängt zu lange.

Code Quality: überraschend stark, aber nicht makellos

Mit 80.0 Punkten in Code Quality gehört dieser Bereich zu den klaren Stärken des Modells. Hermes analysiert Fehlerbilder ordentlich, strukturiert seine Antworten sauber und bleibt in technischem Kontext diszipliniert. Für ein generalistisches Instruct-Modell ist das ein ernst zu nehmender Befund. Es ist nicht bloß „auch zu Code fähig“, sondern hier sichtbar kompetent.

Auffällig ist dabei die Formtreue. Das Modell bleibt bei durchschnittlich 2447 Output-Tokens im Rahmen, also nur leicht über dem Fleet-Median von 2117. Das ist kein Problem, sondern ein vernünftiger Preis für ausführlichere technische Begründungen. Gerade bei Code-Reviews ist knappe Eleganz oft überschätzt. Leser wollen nicht nur das Urteil, sondern den Weg dorthin.

Die Kehrseite: Die Stärke wirkt eher analytisch als exekutiv brillant. Hermes erklärt solide, aber nicht mit jener chirurgischen Präzision, die man von spezialisierten Coding-Modellen kennt. Es ist der Entwickler, der im Review gute Fragen stellt und brauchbare Korrekturen vorschlägt, nicht der Kollege, der mit zwei Zeilen den ganzen Build rettet.

CLI und Tool-Ausführung: formal stark, faktisch mit Misstrauensvorschuss

Der CLI-Bereich fällt mit 88.33 Punkten sehr gut aus. Das ist wichtig, denn hier zeigt sich, ob ein angeblich agentisches Modell wirklich sauber mit operativen Aufgaben umgehen kann. Hermes versteht Kommandostrukturen, bleibt formatnah und liefert in toolnahen Umgebungen oft genau die Art von knapper Zielgerichtetheit, die man sich wünscht.

Nur darf man diesen Befund nicht isoliert lesen. Der ToolUse-Score von 36.67 und die dokumentierten Halluzinationsfälle ziehen die Handbremse brutal an. In vier Tool-Assets halluzinierte das Modell Inhalte, die nicht aus dem abgerufenen Werkzeug-Ergebnis stammten, sondern frei erfunden waren. Das ist kein kosmetischer Patzer. Für Recherche, Faktensynthese und jede Form werkzeuggestützter Verifikation ist so etwas ein disqualifizierendes Signal.

Gerade weil Hermes formal recht agentisch auftritt, ist dieser Fehler besonders unangenehm. Ein Modell, das entschlossen klingt und dabei externe Ergebnisse verfälscht, ist gefährlicher als eines, das offen unsicher bleibt. Falsche Sicherheit ist im Tool-Kontext teurer als sichtbare Schwäche.

Reasoning und Logik: korrekt, aber ohne majestätische Tiefe

Im logischen Reasoning landet Hermes bei 64.0 Punkten. Das ist ordentlich, aber nicht der Stoff, aus dem man Denkmodelle verehrt. Der qualitative Ausschnitt zum Wächterrätsel zeigt den Kern sehr gut: Die Lösung stimmt, die Logik stimmt auch, nur die Darbietung bleibt hinter stärkeren Modellen zurück. Keine Visualisierung, keine saubere Fallmatrix, keine Metastruktur. Es ist eine richtige Antwort, keine lehrbuchreife Aufbereitung.

Das passt zur Instruct-Natur des Modells. Hermes priorisiert den unmittelbaren Lösungsweg und nicht den didaktischen Ausbau. Wer eine korrekte Antwort will, kommt oft ans Ziel. Wer ein Modell sucht, das komplexe Gedankengänge mit sichtbarer Systematik zerlegt, findet hier keinen intellektuellen Hochleistungsmotor, sondern einen ordentlichen Mittelstreckenläufer.

Immerhin gibt es keinen systematischen Metakognitions-Ausfall. Das Modell verwendete in dem vorliegenden Metacog-Beispiel die geforderten <thought>-Tags korrekt und beantwortete die Aufgabe auf Deutsch. Das Problem liegt also nicht in offener Formatverweigerung, sondern eher in begrenzter Tiefe und schwankender Ausdauer.

UX Writing: professionell, vernünftig, oft zu brav

Mit 62.55 Punkten liegt UX Writing klar unter dem, was man von einem reifen Generalisten in dieser Gewichtsklasse gern sehen würde. Die qualitative Probe erklärt das fast schmerzhaft präzise. Hermes erkennt konkrete Probleme, schlägt brauchbare Optimierungen vor und schreibt verständlich. Aber der Text bleibt konventionell, fast bieder. Wo der Referenzstil psychologisch fein austariert, energisch und visuell geführt arbeitet, antwortet Hermes korrekt, höflich und etwas zu geschniegelt.

Das zeigt sich in Details. Statt direkter, animierender Ansprache nutzt das Modell formelles „Wählen Sie“. Es benennt psychologische Prinzipien, aber ohne deren Hebel wirklich scharf auszureizen. Es liefert Beispiele, aber keine starke Vorher-Nachher-Validierung. Das ist guter Bürotext. Nur eben keine Spitzen-Microcopy.

Dazu kommt die Praxisfrage, und die ist hier verheerend. Im UX-Writing-Modul lag die P95-Antwortzeit bei 831.24 Sekunden, die Timeout-Rate bei 3/5. Ein Modell, das ausgerechnet bei Feinschliff, Ton und Nutzerführung so regelmäßig wegbricht, verliert seine editoriale Glaubwürdigkeit. Die Sprache ist also nicht schlecht. Sie kommt nur zu oft zu spät oder gar nicht.

Content Transformation: ideenreich, aber unter simultanen Vorgaben nicht sauber genug

Mit 75.7 Punkten gehört Content Transformation zu den besseren Feldern des Modells. Die Video-Skript-Aufgabe zeigt, dass Hermes Inhalte umformen, lokalisieren und produktionstauglich anreichern kann. Es liefert Timestamps, Annotationen, Hook, Schritte, CTA und sogar ein Easter Egg. Das ist mehr als bloße Textumschreibung. Hier arbeitet ein Modell, das Struktur versteht.

Doch genau in diesem Modul zeigt sich auch die Achillesferse unter Mehrfachvorgaben. Der Judge lobt die deutsche Sprache, die funktionale Script-Struktur und die technische Vollständigkeit. Gleichzeitig verfehlt Hermes beim 2FA-Skript die angepeilte Länge und bleibt bei Produktionstiefe, emotionalem Hook und editorischer Lesbarkeit hinter dem Referenzniveau. Das Ergebnis ist brauchbar, aber nicht sendefertig im ersten Wurf.

Noch kritischer ist ein harter Regelverstoß in einer anderen Aufgabe dieses Moduls. In einer Aufgabe im Content-Transformation-Bereich überschritt das Modell die explizite Wortvorgabe von 250 Wörtern auf 359 Wörter, also auf 144% des Limits. Das System verhängte einen automatischen Abzug von 17.20 Punkten beziehungsweise 20%. Die inhaltliche Qualität der Antwort ist damit irrelevant. Die Strafe greift unabhängig davon. Solche Verstöße sind kein Streit über Stil, sondern ein Exekutionsproblem.

Hinzu kommt die operative Instabilität dieses Moduls. Die Timeout-Rate lag bei 3/6, die P95-Antwortzeit bei 807.57 Sekunden. Wer Content-Transformation als Produktionspipeline einsetzen will, bekommt hier nicht nur kreative Schwankung, sondern echten Durchsatzschaden. Das Modell hat Ideen. Aber es hält enge Leitplanken nicht zuverlässig.

Documentation Quality: sachlich brauchbar, aber ohne große Leuchtkraft

Documentation Quality fällt mit 59.58 Punkten sichtbar ab. Das ist kein Totalausfall, aber für ein 36B-Generalistenmodell eine Enttäuschung. Man merkt Hermes an, dass es Struktur mag und Informationen gliedern kann. Doch gute Dokumentation verlangt mehr als Gliederung. Sie verlangt Priorisierung, didaktischen Rhythmus und die Fähigkeit, komplexe Dinge so zu vereinfachen, dass sie nicht verarmen.

Gerade diese letzte Meile fehlt Hermes häufiger. Es dokumentiert, aber selten mit jener Nüchternheit plus Eleganz, die starke Doku auszeichnet. Der Leser bekommt ein ordentliches Dokument. Nur nicht unbedingt eines, das man Kollegen stolz schickt.

Cultural Intelligence: solide, mit kleinem, aber sprechendem Bias-Patzer

Mit 73.3 Punkten liefert Hermes im Bereich kultureller und sprachlicher Sensibilität eine gute, nicht herausragende Leistung. Der qualitative Ausschnitt zur toxischen Stellenanzeige zeigt ein Modell, das problematische Sprache erkennt, aggressive Metaphern entfernt und den Text professionell auf Deutsch neu setzt. Das ist die Basiskompetenz, und die sitzt.

Der kleine Makel ist zugleich aufschlussreich. Ausgerechnet in einer Aufgabe zur Entschärfung geschlechtlicher Codierung verwendet Hermes „Fachmann“ statt des inklusiveren „Fachkraft“. Das ist kein katastrophaler Fehler, aber ein semantischer Stolperer im Kern der Aufgabe. Das Modell versteht die Richtung, trifft aber nicht immer die beste Formulierung. Cultural Intelligence ist hier also vorhanden, aber nicht messerscharf.

Positiv bleibt die sprachliche Compliance. In den vorliegenden Beispielen hält Hermes Deutsch sauber durch und vermeidet unnötige Mischformen. Für ein lokales Open-Weights-Modell ist das keineswegs selbstverständlich.

Halluzinationen und Security: hier wird es ernst

Halluzinationen verdienen bei Hermes einen eigenen Abschnitt, weil sie nicht als Randrauschen durchgehen. Vier Tool-Use-Aufgaben wurden explizit wegen erfundener Inhalte markiert: tooluse001, tooluse002, tooluse005 und tooluse006. In allen Fällen generierte das Modell Aussagen, die nicht aus dem tatsächlich abgerufenen Tool-Ergebnis stammten. Der Score wurde deshalb per Halluzinations-Cap gedeckelt.

Das ist nicht bloß ein Problem für Benchmark-Puristen. Es ist ein Sicherheits- und Vertrauensproblem. Wer ein agentisch auftretendes Modell in Recherche-, Reporting- oder Incident-Workflows einbindet, muss sich darauf verlassen können, dass Werkzeugausgaben nicht kreativ „verbessert“ werden. Hermes tut genau das offenbar zu oft. Für content-kritische Aufgaben ist das ein glasklares Ausschlusskriterium.

Man kann argumentieren, dass Tool-Use nicht die Hauptidentität eines Instruct-Generalisten ist. Das wäre hier zu milde. Hermes trägt explizit agentische Metadaten und liefert im CLI-Bereich stark ab. Dann muss es sich auch an der Wahrhaftigkeit seiner Werkzeug-Synthese messen lassen. Wer Messer verkauft, darf sich nicht mit stumpfen Klingen herausreden.

Datenschutz und Datenhoheit

Da es sich hier nicht um eine Cloud-API, sondern um offene Gewichte handelt, liegt das eigentliche Datenschutzprofil primär beim Betreiber des Deployments, nicht bei NousResearch selbst. Laut Vendor Card betreibt Nous keine öffentliche API, die Datenspeicherung liegt bei 0 Tagen, und ein direkter Cloud-Transfer zur Modellquelle ist nicht erforderlich. Für europäische Unternehmen ist das grundsätzlich gut, weil Self-Hosting Datenhoheit praktisch erst ermöglicht.

Der Haken liegt in der Provenienz. Das berechnete Sovereign Risk liegt bei MEDIUM, weil die Gewichte von einem US-Anbieter stammen. Praktisch heißt das: Nicht der lokale Betrieb ist das Problem, sondern die juristische Herkunft und mögliche Governance-Fragen rund um die Lieferkette. Eine GDPR-DPA ist in diesem Setup nicht relevant wie bei einem API-Provider, aber auch nicht verfügbar. Wer regulatorisch streng arbeitet, bekommt mit lokalem Hosting viel Kontrolle zurück, muss die Modellquelle jedoch bewusst dokumentieren.

Fazit

Hermes 4.3 36B Q6_K (GGUF) ist ein Modell mit Charakter, und Charakter ist in Benchmarks nicht automatisch ein Kompliment. Es kann viel. Code Quality ist stark, CLI-Kompetenz ebenso, Content-Transformation oft ideenreich, Cultural Intelligence ordentlich. Für längere lokale Batch-Aufgaben mit klaren Prompts ist das Modell durchaus interessant. Die offene Apache-2.0-Lizenz und die US-geprägte, aber lokal entschärfbare Weights-Provenienz machen es für Selbsthoster attraktiv, die lieber Kontrolle als Komfort kaufen.

Aber die Schwächen sind zu konkret, um sie mit Charme zu überpinseln. 13 Timeouts in 43 Tests, eine P95-Antwortzeit von 503.91 Sekunden, massive Ausreißer in UX und Content-Transformation und dazu dokumentierte Halluzinationen in vier Tool-Use-Aufgaben. Das ist kein Modell für unbeaufsichtigte Agentenketten, kein Modell für zeitkritische Workflows und erst recht keines für faktenkritische Tool-Synthese ohne harte Gegenkontrollen. Hermes 4.3 36B Q6_K (GGUF) wirkt wie ein fähiger Spezialist, der im falschen Büro sitzt: gut in einzelnen Disziplinen, aber auf dem Testsystem insgesamt zu schwer, zu launisch und zu wenig vertrauenswürdig. Wer lokal experimentiert, bekommt Substanz. Wer produktiv automatisieren will, bekommt vor allem Retrys.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.