LLM Model Review
· Instruction-Tuned · Agentic Orchestrator
Mit einem Gesamtscore von 70,09 Prozent und dem Speed-Profile-Badge Batch Tool Expert zeigt Hermes 4.3 36B Q6_K einen klaren Charakter: kein Sprinter, eher ein Werkzeugkasten mit gelegentlich klemmendem Verschluss. Als Generalist, in der Server-Klasse und mit 36 Milliarden dichten Parametern ist dieses Modell nicht dafür da, nett mitzuspielen. Es muss auf breiter Front liefern. Das tut es in einzelnen Disziplinen respektabel, in der Summe aber mit zu viel Streuung und zu vielen Aussetzern für blindes Vertrauen. Sovereign Risk: MEDIUM — die offenen Gewichte stammen von Nous Research in den USA; beim lokalen Betrieb fließen keine Daten an einen Provider, die Provenienz bleibt aber an eine US-Jurisdiktion mit CLOUD-Act-Kontext gekoppelt.
Kopfnoten: Stabilität und Zuverlässigkeit
| Metrik | Wert | Bewertung | Analyse |
|---|---|---|---|
| Timeout-Rate | 13/43 | Nicht einsetzbar | Das Modell zeigt katastrophale Instabilität und ist für einen unbeaufsichtigten Produktiveinsatz völlig ungeeignet. Bei einem lokalen Open-Weights-Modell dieser Größenklasse spricht das klar für ein Hardware-Ceiling auf dem Testsystem. |
| P95-Antwortzeit | 503.91 s | Kritisch | Extreme Tail-Latenz. Das Modell streut massiv und ist für zeitkritische Prozesse ungeeignet. |
Architektur und Charakter: Instruct mit Agenten-Ambition
Die vorab vergebene Kategorie Instruct, Agentic passt erstaunlich gut zum beobachteten Verhalten. Hermes 4.3 36B Q6_K antwortet meist direkt, strukturiert und ohne die Selbstverliebtheit vieler Denkmodelle, die jede einfache Aufgabe erst einmal in einen inneren Monolog verwandeln. Gleichzeitig sieht man an mehreren Stellen die agentische Schlagseite: Planung, Struktur, Tool-Nähe und Formatdisziplin sind als Anlage vorhanden, aber die direkte Ausführung kippt nicht selten in Langsamkeit, Instabilität oder erfundene Tool-Ergebnisse.
Wichtig ist der Maßstab. Dieses Modell ist kein Nano-Helfer und kein Desktop-Kompromiss, sondern ein dichtes 36B-Modell für die Server-Klasse. Bei Dense gilt: Alle 36 Milliarden Parameter sind immer aktiv. Es gibt also keinen MoE-Rabatt bei der Erwartungshaltung. Wer so viel Rechenmasse beansprucht, darf nicht nur nach Potenzial bewertet werden, sondern nach abgelieferter Substanz.
Geschwindigkeit: Batch-Modell mit schwerem Schritt
Der Speed-Profile-Badge Batch Tool Expert beschreibt Hermes treffend. Das ist kein Modell für den Dialogrhythmus einer Suchmaschine und auch keines für flüssige IDE-Interaktion. Es ist eher für Aufgaben gedacht, bei denen man einen Stapel Arbeit übergibt und die Antwort später einsammelt. Die gemessene Generierungsgeschwindigkeit liegt bei 8,2 Tokens pro Sekunde. Das ist langsam. Nicht charmant langsam. Operativ langsam.
Auf einem lokalen Modell zählt diese Zahl mehr als jede gefühlte Wartezeit, weil sie unmittelbar mit Nutzbarkeit, Energiebedarf und Frustration korreliert. Im Fazit zur Plattform muss man hier präzise sein: Hermes 4.3 36B Q6_K wurde lokal auf einer NVIDIA DGX Spark (GB10 Grace Blackwell Superchip, ~115 GB Unified Memory) evaluiert. Dass ein 36B-Dense-Modell in Q6_K selbst dort 13 von 43 Tests verliert, ist kein Schönheitsfehler, sondern ein Warnschild. Das Testsystem stößt hier offenkundig an Grenzen, und genau das ist für lokale Deployments die entscheidende Praxiswahrheit.
Token-ökonomisch verhält sich das Modell dagegen ordentlich. Kein Modul sprengt den erwarteten Verbosity-Rahmen. Die Durchschnittsausgaben liegen im CLI-Bereich bei 168 Tokens gegenüber einem Fleet-Median von 211, in Documentation Quality bei 2169 gegenüber 2497, in Content Transformation bei 1657 gegenüber 1606. Selbst dort, wo Hermes etwas ausführlicher wird, bleibt es im grünen Bereich. Das ist die gute Nachricht. Die schlechte: Wenn ein Modell mit vernünftigem Textvolumen trotzdem solche Tail-Latenzen und Timeouts produziert, liegt das Problem nicht an Geschwätzigkeit, sondern tiefer im Laufzeitverhalten.
Code Quality und technischer Zugriff
Mit 80,0 Punkten in Code Quality gehört Hermes 4.3 36B Q6_K zu den klaren Stärken seines eigenen Profils. Für ein Modell, das nicht als Coder spezialisiert ist, ist das mehr als ein Achtungserfolg. Es erkennt Fehlerbilder, strukturiert Lösungen brauchbar und arbeitet sich meist entlang der Aufgabe statt um sie herum. Gerade für ein Instruct-Modell ist das typisch im besten Sinn: wenig Theater, ordentliche Exekution.
Man sollte dieses Ergebnis aber nicht romantisieren. Die Kategorie-Metadaten sagen Generalist und Agentic, nicht Coder. Hermes punktet hier also nicht aus Spezialisierung, sondern aus solider Basiskompetenz. Das ist wertvoll, weil es in der Praxis oft genau diese Art von technischer Alltagshilfe ist, die Teams brauchen: Fehler erklären, Fix-Richtung zeigen, Struktur in diffusen Input bringen.
CLI, Tool-Nähe und die Grenze des Vertrauens
Im CLI Benchmark erreicht Hermes 88,33 Punkte. Das ist stark. Es spricht für ein Modell, das Shell-nahe Aufgaben, Kommandostrukturen und operative Abläufe gut greifen kann. Diese Stärke passt zum agentischen Etikett. Wer ein Modell für Tool-Use, Arbeitsabläufe und Assistenz in technischen Pipelines sucht, bekommt hier grundsätzlich die richtige Denkrichtung.
Nur endet die gute Nachricht dort, wo Vertrauen beginnt. Im Tool-Use-Umfeld traten gleich vier Halluzinationsbefunde auf: in den Aufgaben tooluse001, tooluse002, tooluse005 und tooluse006 generierte das Modell Inhalte, die nicht aus dem abgerufenen Tool-Ergebnis stammten, sondern erfunden waren. Der P2-Score wurde jeweils durch einen Halluzinations-Cap begrenzt. Für content-kritische Aufgaben wie Recherche, faktengebundene Berichte oder jede Form von Audit-Trail ist das ein disqualifizierendes Signal.
Das ist die zentrale Spannung dieses Modells: Hermes wirkt wie ein brauchbarer Agenten-Baustein, verhält sich aber im entscheidenden Moment nicht immer wie ein zuverlässiger Protokollant. Wer nur Kommandos vorbereitet, Struktur liefert oder Optionen sortiert, kann damit arbeiten. Wer erwartet, dass Tool-Ausgaben sauber gelesen und ohne Erfindungen weiterverarbeitet werden, bekommt ein Problem. Und Probleme dieser Art sind tückisch, weil sie geschniegelt auftreten. Halluzinationen mit sicherem Tonfall sind die teuersten Fehler.
Reasoning und Logik: richtig gedacht, nicht immer tief genug
Im Bereich Logical Reasoning steht Hermes bei 64,0 Punkten. Das ist kein Einbruch, aber auch kein Aushängeschild. Die qualitative Auswertung zeigt ein Modell, das logische Kernprobleme oft korrekt löst, jedoch bei Struktur, Tiefe und didaktischer Ausarbeitung hinter stärkeren Kandidaten zurückbleibt. Im Metakognitions-Beispiel mit den Wächtern liefert es die richtige Lösung, nutzt die geforderten <thought>-Tags korrekt und erklärt die doppelte Umkehr logisch sauber. Was fehlt, ist der zweite Gang: tabellarische Gegenprüfung, alternative Formulierungen, eine robustere Aufbereitung des Gedankengangs.
Das passt wieder zur Instruct-Einordnung. Hermes beantwortet die Aufgabe. Es zelebriert sie nicht. Für Anwender, die primär korrekte Schlussfolgerungen wollen, ist das oft ausreichend. Für Szenarien, in denen die Erklärung selbst das Produkt ist, etwa Schulung, Dokumentation oder argumentatives Absichern, bleibt es etwas zu konventionell.
Hinzu kommt die Praxisseite: Schon innerhalb des Reasoning-Moduls lag die P95-Antwortzeit bei 180,7 Sekunden, bei 2 von 11 Timeouts. Ein Modell, das denken kann, aber beim Denken so oft aus dem Takt fällt, macht sich im Alltag kleiner, als seine Rohfähigkeit vermuten lässt.
UX Writing: kompetent formuliert, aber ohne Leuchtkraft
Im Modul UX Writing & Microcopy erreicht Hermes 62,55 Punkte. Das ist die Art Ergebnis, bei der man als Redakteur ungern das Wort „schlecht“ benutzt, aber noch ungerner das Wort „gut“. Die qualitative Probe zeigt ein Modell, das Probleme sauber benennt, konkrete Optimierungen liefert und psychologische Grundprinzipien immerhin erfasst. Es erkennt Jargon, Informationsüberladung, schwachen Nutzenfokus und unnötig komplexe Logik. Das ist die solide Handwerkerarbeit.
Was fehlt, ist der Funke. Der Judge bemängelt aus gutem Grund das Fehlen einer echten Mobile-First-Reduktion, einer Vorher-Nachher-Metrik und einer tieferen psychologischen Fundierung. Auch stilistisch bleibt Hermes förmlich, fast zu geschniegelt. Statt direkter Ansprache kommt häufig das deutsche Service-Handbuch-„Wählen Sie“. Korrekt, aber wenig elektrisierend. UX-Microcopy lebt von Verdichtung, Rhythmus und einem Gefühl für Reibung. Hermes versteht die Mechanik, aber nicht immer den Sog.
Dazu kommt ein massiver Realitätsbruch: Im UX-Writing-Modul lag die P95-Antwortzeit bei 831,24 Sekunden, bei 3 von 5 Timeouts. Das ist nicht bloß langsam, das ist zerstörerisch. Wer Microcopy überarbeitet, sitzt in einem iterativen Prozess. Da ist ein Modell, das regelmäßig wegbricht, kein Assistent, sondern eine Geduldsprobe mit Stromverbrauch.
Content Transformation: stark im Umbau, schwach bei Disziplin
Mit 75,7 Punkten in Content Transformation & Adaption zeigt Hermes eine seiner überzeugenderen Seiten. Der qualitative Befund zum 2FA-Videoskript ist typisch: Das Modell trifft Sprache, Struktur und die Kernanforderungen. Es produziert ein funktionales deutsches Skript, setzt Timestamps, Screen-Annotationen, Hook, Schritte, CTA und sogar ein Easter Egg. Das ist keine Kleinigkeit. Viele Modelle scheitern in solchen Mischaufgaben aus Stil, Format und Produktionslogik deutlich härter.
Aber genau hier zeigt sich auch die Begrenzung. Das Skript bleibt in Produktionstiefe, emotionaler Hook-Wirkung und Editor-Lesbarkeit hinter einem wirklich starken Ergebnis zurück. Die Analyse ist knapp, die Produktionshinweise sind funktional, aber nicht präzise genug, die Dramaturgie eher linear als spannungsgeführt. Hermes transformiert Material brauchbar. Es inszeniert es nicht auf höchstem Niveau.
In einer Aufgabe im Content-Transformation-Bereich überschritt das Modell die explizite Wortvorgabe von 250 Wörtern deutlich. Stattdessen wurden 359 Wörter erkannt, also 144 Prozent des Limits. Das System verhängte dafür einen automatischen Abzug von 17,20 Punkten, entsprechend 20 Prozent auf den erzielten Teilscore. Die inhaltliche Qualität der Antwort ist damit irrelevant. Die Strafe greift unabhängig davon. Das ist kein kosmetischer Makel, sondern ein harter Compliance-Fehler.
Dieser Verstoß passt leider zum Profil. Wenn Sprache, Struktur und Länge gleichzeitig gefordert werden, hält Hermes die Sache oft inhaltlich zusammen, verliert aber bei strengen Nebenbedingungen an Präzision. Für redaktionelle Adaption ist das lästig. Für produktive Workflows mit festen Limits ist es gefährlich, weil der Text dann nicht „fast richtig“ ist, sondern schlicht formal unbrauchbar.
Documentation Quality: zu wenig Reife für ein großes Modell
Die 59,58 Punkte in Documentation Quality sind für ein 36B-Server-Modell schwach. Gerade ein Instruct-Generalist sollte Dokumentation nicht nur inhaltlich korrekt, sondern auch klar gegliedert, präzise und belastbar liefern. Hermes bleibt hier hinter dieser Erwartung zurück. Der Gesamteindruck aus den Moduldaten spricht für brauchbare Roharbeit, aber zu wenig Schärfe in Aufbereitung und Verifikation.
Das ist besonders deshalb unerquicklich, weil Dokumentationsaufgaben eigentlich zum natürlichen Habitat eines solchen Modells gehören müssten. Hier braucht man keine kreative Brillanz, sondern saubere Struktur, gute Priorisierung und formale Ruhe. Wenn ein Modell an dieser Stelle nur Mittelmaß liefert, sagt das etwas über seine redaktionelle Reife aus. Nicht alles, aber genug.
Cultural Intelligence: ordentlich, mit kleinem blinden Fleck
Im Modul Cultural Intelligence erzielt Hermes 73,3 Punkte. Das ist ordentlich und wird durch das qualitative Beispiel gestützt. Die Umschreibung einer toxischen Stellenanzeige gelang in sauberem Deutsch, mit professionellem Ton und klarer Entschärfung problematischer Begriffe. Sprachmischung oder Stilbruch traten nicht auf. Das Modell zeigt hier, dass es kulturelle und sprachliche Normen nicht nur erkennt, sondern auch praktisch umsetzen kann.
Der Haken ist klein, aber aufschlussreich: Statt des wirklich inklusiven Begriffs „Fachkraft“ verwendete das Modell „Fachmann“. In einem Task, der explizit Gender-Bias korrigieren soll, ist das nicht bloß eine Stilfrage. Es ist ein Präzisionsverlust an der falschen Stelle. Kein Totalschaden, aber ein Moment, in dem man sieht, dass Hermes oft nah genug an guter Lösung ist, ohne sie ganz zu schließen.
Halluzinationen: kein Randproblem, sondern Risikokern
Die Halluzinationsbefunde verdienen einen eigenen Blick, weil sie das Einsatzprofil des Modells stärker prägen als manche Punktzahl. Vier separate Tool-Use-Aufgaben wurden wegen erfundener Inhalte gedeckelt. Das bedeutet nicht, dass Hermes ständig fabuliert. Es bedeutet etwas Schlimmeres: In einem Bereich, in dem die Ausgabe an externe Fakten oder Tool-Resultate gebunden sein muss, ist das Modell nicht verlässlich genug.
Für Security-nahe Assistenz, Recherchen, operative Berichte oder Agentenketten mit nachgelagerten Aktionen ist das ein Kernrisiko. Ein Modell, das Halluzinationen in freier Textproduktion zeigt, ist lästig. Ein Modell, das Halluzinationen nach Tool-Abruf zeigt, ist ein Compliance-Problem mit schöner Oberfläche.
Datenschutz und Datenhoheit
Da es sich hier um ein lokal betriebenes Open-Weights-Modell handelt, entsteht beim eigentlichen Einsatz kein automatischer Abfluss an einen Cloud-Provider. Das ist für deutsche und europäische Unternehmen der wichtigste praktische Punkt. Die Gewichte stammen allerdings von Nous Research Inc. aus San Francisco, USA, das berechnete Sovereign Risk liegt bei MEDIUM. Begründet wird das durch die US-Provenienz der Gewichte und den CLOUD-Act-Kontext. Laut vorliegenden Daten gibt es keine öffentliche API des Anbieters, der Datenstandort ist lokal oder beim jeweiligen Dritt-Hoster, die Datenspeicherung liegt bei 0 Tagen, und eine GDPR DPA ist nicht verfügbar. Für Selbst-Hosting ist das weniger dramatisch als bei einem Cloud-Modell. Für Unternehmen bleibt es dennoch ein Provenienzthema, das in Beschaffung und Governance nicht unter den Tisch fallen sollte.
Fazit
Hermes 4.3 36B Q6_K ist ein Modell mit erkennbarem Profil und ebenso erkennbaren Macken. Es schreibt meist diszipliniert, denkt oft richtig, ist im Code-Bereich stärker als seine Kategorisierung vermuten lässt und bringt die richtige Grundhaltung für agentische, tool-nahe Arbeit mit. Gleichzeitig ruinieren 13 Timeouts in 43 Tests, eine P95-Antwortzeit von 503,91 Sekunden und wiederholte Halluzinationen im Tool-Use den Vertrauensvorschuss, den ein 36B-Dense-Modell dieser Klasse eigentlich haben müsste.
Für lokale Nutzer ist das Urteil zweigeteilt. Als experimenteller Assistent für Batch-Aufgaben, Umformulierungen, technische Erstanalysen und strukturiertes Drafting kann Hermes nützlich sein. Für unbeaufsichtigte Agenten-Workflows, faktenkritische Tool-Ketten, zeitnahe Interaktion oder produktive Redaktions- und DevOps-Pipelines ist dieses konkrete Setup auf dem Testsystem nicht reif genug. Die offenen Gewichte unter Apache 2.0 und die lokale Kontrollmöglichkeit sind echte Pluspunkte. Aber ein Modell, das häufig ausfällt und ausgerechnet bei Tool-Ergebnissen zu Erfindungen neigt, ist kein stiller Profi. Es ist ein talentierter Kollege, den man nicht ohne Gegenlesen zur Nachtschicht allein lassen sollte.
Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.