LLM Model Review
Erstellt am · Instruction-Tuned · Uncensored
Mit einem Gesamtscore von 59,21 % tritt Hermes 3 8B (Q6_K_L) als das auf, was seine Metadaten erwarten lassen: ein Generalist der Edge-Klasse mit 8,0 Milliarden dichten Parametern, gebaut für direkte Befehlsausführung statt für tiefe Denkarbeit. Der Speed-Profile-Badge „Real-Time Tool Expert“ verspricht ein flinkes, alltagstaugliches Lokalsystem. Der Benchmark zeigt aber ein komplizierteres Bild: schnell, oft brauchbar, gelegentlich angenehm unkompliziert, nur leider zu oft an der Oberfläche. Sovereign Risk: MEDIUM — die Gewichte stammen von Nous Research aus den USA; bei lokaler Nutzung greift der CLOUD Act nicht direkt, bei späterem Fremdhosting sehr wohl.
Kopfnoten: Stabilität und Zuverlässigkeit
| Metrik | Wert | Bewertung | Analyse |
|---|---|---|---|
| Timeout-Rate | 0/43 | Stabil | Das Modell lief im Test absolut stabil und zuverlässig. |
| P95-Antwortzeit | 28.73 s | Konsistent | Sehr geringer Tail, kaum Ausreißer. |
Architektur-Charakter: gehorsam, offen, aber nicht tief
Die Kombination aus Instruct und Uncensored-Finetuned ist keine Nebensache, sondern der Schlüssel zum Charakter dieses Modells. Instruct-Modelle sind darauf trainiert, Anweisungen sauber und ohne Umwege auszuführen. Genau das sieht man hier: Hermes antwortet meist direkt, bleibt in der gewünschten Sprache und produziert selten textliche Umwege. Es ist kein Modell, das sich in metareflexiven Schleifen verliert. Manchmal ist das wohltuend. Manchmal ist es schlicht zu wenig.
Der zweite Tag, Uncensored-Finetuned, erklärt den Rest. Anders als abliterierte Derivate wirkt Hermes nicht mechanisch beschädigt. Es zerfällt nicht, stürzt nicht in groteske Wiederholungen und verweigert die Arbeit nicht aus Prinzip. Aber diese offenere Konditionierung ersetzt keine zusätzliche Modellkapazität. Bei komplexen Aufgaben sieht man die typische Schwäche dieser Klasse: nicht der Motor ist kaputt, sondern das Feingefühl fehlt. Nuancen, Priorisierung, tieferes Erklären und belastbare Synthese geraten ins Rutschen.
Für ein Edge-Modell ist das kein Skandal. Es ist sogar erwartbar. Die faire Frage lautet also nicht, ob Hermes mit Frontier-Systemen mithalten kann. Die faire Frage lautet, ob es auf knapper Hardware genug Substanz bietet, um als lokaler Assistent ernst genommen zu werden. Die Antwort ist: ja, aber mit klaren Grenzen.
Geschwindigkeit und lokaler Betrieb
Hermes 3 8B (Q6_K_L) lief im Test lokal auf einem Apple Silicon M4 mit 24GB Unified Memory (Shared RAM/VRAM) und erreichte dabei 47,99 Tokens pro Sekunde. Für ein dichtes 8B-Modell in Q6_K_L ist das ein sehr ordentliches Ergebnis. Der Badge „Real-Time Tool Expert“ passt insofern, als sich das Modell tatsächlich interaktiv anfühlt: Antworten kommen schnell genug, um nicht gegen den Arbeitsfluss zu arbeiten.
Wichtiger als absolute Wartezeiten ist hier das Verhältnis aus Tempo und Größenklasse. Ein Edge-Modell muss nicht nur halbwegs klug sein, sondern auf dem Testsystem auch ohne Speicherdrama laufen. Genau das gelingt Hermes. Mit 8B und dieser Quantisierung bleibt es weit genug unter der 24-GB-Grenze, um nicht in die übliche lokale Hölle aus Speicherknappheit, Auslagerung und zäher Restlatenz zu kippen. Das ist kein glamouröser Erfolg, aber ein echter. Viele größere Modelle gewinnen Benchmarks und verlieren dann den Alltag.
Auch bei der Token-Ökonomie verhält sich Hermes diszipliniert. Kein Modul überschreitet den erwarteten Verbosity-Rahmen. Im Gegenteil: CLI, Code Quality, Documentation Quality und die übrigen Bereiche liegen sämtlich unter oder nahe am Fleet-Median. Für ein lokales Modell ist das mehr als eine Fußnote. Weniger Text bedeutet hier meist nicht nur geringere Kosten, sondern spürbar weniger Wartezeit.
Code Quality und Security: brauchbar im Raster, schwach im Gelände
Der größte Irrtum wäre, aus Hermes’ struktureller Sauberkeit auf technische Tiefe zu schließen. Im Code-Quality-Modul liefert das Modell korrekte Tabellen, hält Formatvorgaben ein und bleibt sprachlich stabil. Das ist die gute Nachricht. Die schlechte: Inhaltlich entdeckt es zu wenig und erklärt zu wenig.
Ein besonders sprechendes Beispiel ist die Sicherheitsanalyse einer absichtlich verwundbaren PHP-Anwendung. Hermes identifizierte 8 Schwachstellen, der Referenzstandard dokumentierte 19. Das ist keine kleine Lücke, sondern eine Abdeckungslücke von 57,9 %. Es fehlten unter anderem Session Fixation, CSRF, Hardcoded Secrets, XSS, Header-Injection nach bereits erfolgter Ausgabe und die eigentliche Tragweite von IDOR- und Path-Traversal-Ketten. Selbst dort, wo Hermes Treffer landete, blieb die Erklärung oft generisch. Aus einem konkreten Exploit-Pfad wurde dann eine allgemeine Warnung. Das liest sich ordentlich, hilft aber dem Entwickler weniger, als es sollte.
Auch die Schweregrade sitzen nicht immer. Path Traversal als „Medium“ zu klassifizieren, wenn potenziell Systemdateien oder Backups lesbar werden, ist zu milde. Ein Admin-Delete ohne echte Berechtigungsprüfung ist nicht einfach „High“, sondern in realen Ketten oft verheerend. Hermes sieht das Problem, aber es misst nicht präzise nach. Das ist der Unterschied zwischen einem Werkzeug und einem Warnschild.
Hier wirkt die Kategorie Uncensored-Finetuned mildernd, aber nicht entlastend. Solche Modelle sind nicht primär für Softwareentwicklung optimiert. Sie wollen freier antworten, nicht zwingend tiefer debuggen. Trotzdem bleibt das Urteil klar: Für Security-Reviews, Threat-Modelling oder anspruchsvolle Code-Audits reicht Hermes nicht. Als erster Durchlauf, als Sparringspartner für offensichtliche Schwachstellen oder für grobe Tabellenarbeit ist es brauchbar. Als alleiniger Prüfer wäre es fahrlässig.
Reasoning und Logik: richtige Antwort, dünne Begründung
Im Reasoning-Modul landet Hermes bei 48,82 %. Das ist der Bereich, in dem das Modell seine Grenzen am wenigsten verstecken kann. Es scheitert nicht spektakulär. Es liefert oft die richtige Schlusspointe. Aber der Weg dorthin ist zu oft unsauber.
Das Guard-Rätsel aus den Protokollen ist dafür fast schon lehrbuchhaft. Hermes kommt auf die korrekte Endlösung, erklärt aber den eigentlichen Mechanismus der doppelten Umkehr nur verschwommen. Die Antwort ist also nicht falsch, nur pädagogisch und logisch unterbegründet. Wer die Aufgabe bereits halb verstanden hat, kommt ans Ziel. Wer auf die Erklärung angewiesen ist, bekommt eine Skizze statt eines Beweises.
Das ist typisch für kleine Instruct-Modelle der Edge-Klasse. Sie sind auf direkte Ausführung trainiert, nicht auf langes gedankliches Ausrollen. In einfachen Entscheidungsaufgaben wirkt das effizient. In mehrstufiger Logik merkt man dann, dass Hermes lieber abschließt, als den letzten Meter sauber auszuleuchten. Für Alltagslogik reicht das oft. Für belastbare Analyse nicht.
CLI und Tool-Nähe: erstaunlich ordentlich, aber kein Freifahrtschein
Der CLI-Benchmark mit 80,56 % gehört zu den stärkeren Feldern des Modells. Das passt zum Speed-Profil und zur Instruct-Natur. Hermes versteht direkte operative Anfragen gut, bleibt knapp und produziert keinen unnötigen Textballast. Für Shell-nahe Aufgaben, präzise Kommandos und einfache operative Hilfestellung ist das ein echter Pluspunkt.
Gerade auf einem Edge-Modell ist das wertvoll. Wer lokal arbeitet, will oft keinen philosophischen Assistenten, sondern ein System, das bei einem Kommando, einer Regex oder einer Pipeline nicht erst zur Selbstfindung ansetzt. Hermes erfüllt diesen Pragmatismus ordentlich.
Man sollte daraus aber nicht ableiten, dass Tool-Nutzung insgesamt souverän wäre. In den Tool-Use-bezogenen Protokollen taucht die eigentliche Achillesferse auf: Halluzinationen.
Halluzinationen: dort, wo Faktenbindung Pflicht wäre, wird es gefährlich
Hermes 3 8B (Q6_K_L) bekommt hier keinen Freispruch. Im Gegenteil: Die Halluzinationsbefunde sind konkret und unangenehm. In vier Tool-Use-Aufgaben generierte das Modell Inhalte, die nicht aus dem abgerufenen Tool-Ergebnis stammten, sondern erfunden waren: tooluse002, tooluse004, tooluse005 und tooluse006. Das System kappte deshalb den P2-Score per Halluzinations-Cap. Für content-kritische Aufgaben wie Recherche, Faktenberichte oder die Auswertung externer Resultate ist das ein disqualifizierendes Signal.
Das Problem ist nicht, dass Hermes kreativ wäre. Das Problem ist, dass es die Grenze zwischen abgerufener Evidenz und eigener Vervollständigung nicht hart genug verteidigt. Genau dort entscheidet sich, ob ein Modell als Tool-Operator taugt oder nur so tut. Wer lokal einen Agenten bauen will, der Suchergebnisse, Logs oder API-Antworten zuverlässig zusammenfasst, sollte diesen Befund ernst nehmen. Ein Modell darf bei Fakten nicht improvisieren wie ein Praktikant kurz vor Feierabend.
Content Transformation: lebendig, aber nicht sauber genug unter Nebenbedingungen
Mit 64,24 % wirkt Hermes im Bereich Content Transformation auf den ersten Blick passabel. Tatsächlich zeigt das Modell hier einen seiner sympathischeren Züge: Es kann Texte umformen, einen brauchbaren Ton treffen und eine Struktur aufbauen, die nicht wie maschinell zusammengeschraubt wirkt. Das Video-Skript aus den Protokollen ist dafür ein gutes Beispiel. Die Antwort war vollständig auf Deutsch, strukturell sinnvoll gegliedert und in ihrem Kern durchaus verwendbar.
Nur war sie eben auch deutlich weniger produktionsreif als nötig. Der Judge monierte zu Recht zu wenige Regiehinweise, schwache visuelle Annotationen, keinen echten Pattern Interrupt und ein nicht funktionales Easter Egg. Kurz gesagt: Hermes schreibt einen brauchbaren Sprechtext, aber noch kein Regiebuch. Für Content-Ideen reicht das. Für ein Team, das direkt schneiden und produzieren will, fehlt Dichte.
Hinzu kommt ein regelbasierter Patzer, der im produktiven Einsatz sofort weh tut. In einer Aufgabe im Content-Transformation-Bereich überschritt das Modell die explizite Wortvorgabe von 250 Wörtern auf 308 Wörter, also 123 % des Limits. Das System verhängte dafür einen automatischen Abzug von 20 % beziehungsweise 10,92 Punkten auf den erreichten Score. Die inhaltliche Qualität der Antwort ist damit irrelevant. Die Strafe greift unabhängig davon. Das ist kein Schönheitsfehler, sondern ein klassischer Instruct-Test: Unter mehreren gleichzeitigen Bedingungen verliert Hermes das Wortlimit zuerst.
UX Writing: formal korrekt, inhaltlich nur halb wach
Im UX-Writing landet Hermes bei 59,15 %. Das ist weder ein Totalausfall noch ein Kompliment. Das Modell befolgt Formatvorgaben, liefert Tabellen und bleibt auf Kurs. Aber die Texte haben zu oft den Charakter eines pflichtbewussten Praktikumsberichts: alles da, wenig Schärfe, kaum psychologische Tiefe.
Der qualitative Befund aus den Protokollen bringt es gut auf den Punkt: Die Kernstruktur sitzt, aber Expertentiefe und psychologische Nuance fehlen. Wenn Hermes Probleme in einer UI benennt, trifft es oft die offensichtlichen Punkte. Was fehlt, ist die überzeugende Herleitung, warum genau diese Mikroformulierungen Nutzer hemmen, irritieren oder abbrechen lassen. Das Modell analysiert Oberfläche, aber selten Verhalten.
Für schnelle Überarbeitungen, Label-Varianten und erste Tabellen ist das brauchbar. Wer Conversion-nahe UX-Texte, heikle Fehlermeldungen oder onboarding-kritische Mikrokopie baut, sollte allerdings nicht auf diese Ebene stehen bleiben. Hermes ist hier dienstbar, aber nicht feinfühlig.
Documentation Quality: strukturiert, doch ohne die zweite Schicht
Mit 48,06 % fällt Documentation Quality deutlich ab. Das überrascht nur, wenn man Hermes zuvor für seine ordentliche Form gelobt hat. Dokumentation verlangt eben mehr als Struktur. Sie verlangt Hierarchie, Antizipation und die Fähigkeit, aus Sicht eines lesenden Menschen die nächste Rückfrage schon im Text zu beantworten.
Genau diese zweite Schicht fehlt Hermes oft. Es kann Dinge ordentlich auflisten, knapp erklären und sprachlich sauber bleiben. Aber es baut zu selten die Brücken zwischen Schritten, Randfällen und praktischer Konsequenz. Im Ergebnis entsteht Dokumentation, die lesbar ist, aber nicht trägt. Man kommt durch den Text. Man kommt nicht immer sicher durch die Aufgabe.
Cultural Intelligence: respektabel, aber nicht feinnervig
Mit 67,6 % zeigt Hermes im Bereich Cultural Intelligence eine durchaus respektable Leistung. Das Modell bleibt in der geforderten Sprache, entfernt offensichtliche toxische Begriffe zuverlässig und trifft einen professionelleren Ton. Gerade für ein kleines lokales Generalistenmodell ist das anerkennenswert.
Interessant wird es in den Details. In einer deutschen Bias-Korrektur ersetzte Hermes problematische Formulierungen zwar weitgehend sauber, verfehlte aber den letzten Grad an inklusiver Präzision. Statt eines wirklich neutralen Begriffs wie „Fachkraft“ blieb es bei „Mitarbeiter“. Dazu kam ein unnötig negatives Framing in einer umgeschriebenen Passage. Das ist kein grober Fehltritt, aber ein klares Signal: Hermes erkennt den groben kulturellen Rahmen, nicht immer die feineren Konventionen moderner, inklusiver Sprache.
Für interne Umschreibungen, erste Entwürfe und grobe Tonalitätskorrekturen ist das genug. Für öffentlich sichtbare HR-, Diversity- oder Kommunikationsarbeit sollte noch jemand mit Sprachgefühl drüberschauen. Genau dort trennt sich anständige von wirklich guter KI-Unterstützung.
Datenschutz und Datenhoheit
Hermes 3 8B (Q6_K_L) ist kein Cloud-Dienst, sondern ein Modell mit offenen Gewichten zur lokalen Ausführung. Das ändert die Datenschutzlage fundamental. Laut Vendor Card betreibt Nous Research keine eigene öffentliche API, die geprüfte Nutzung erfolgte selbstgehostet, die Datenspeicherung liegt bei 0 Tagen. Das berechnete Sovereign Risk beträgt MEDIUM. Der Grund ist nicht ein aktiver Datentransfer, sondern die US-amerikanische Provenienz der Gewichte. Für lokale Nutzung ist das überschaubar. Wer das Modell jedoch über Drittanbieter oder eigene externe Hosting-Infrastruktur betreibt, verlagert das Risiko sofort in Richtung Jurisdiktion, Auftragsverarbeitung und Zugriffsszenarien. Eine GDPR DPA ist auf Anbieter-Ebene nicht verfügbar, was für Unternehmen erst bei nicht-lokaler Nutzung zum echten Compliance-Thema wird.
Fazit
Hermes 3 8B (Q6_K_L) ist ein charaktervolles kleines Modell mit klaren Stärken und noch klareren Grenzen. Es antwortet schnell, bleibt stabil, verhält sich token-ökonomisch und passt als dichter 8B-Generalist sehr gut auf das Edge-Profil lokaler Systeme. Für einfache CLI-Hilfe, strukturierte Textaufgaben, erste Umschreibungen und pragmatische Assistenz ist das Modell absolut verwendbar. Gerade im lokalen Einsatz ist das viel wert, weil nicht jedes brauchbare Modell gleich nach Workstation oder Cloud schreit.
Aber man sollte sich von der angenehmen Direktheit nicht täuschen lassen. In Code und Security fehlt Tiefe. In Reasoning fehlt Stringenz. In Dokumentation fehlt Voraussicht. Und bei toolgebundenen Faktenaufgaben halluziniert Hermes mehrfach dort, wo ein Modell schlicht nichts erfinden darf. Das ist kein akademischer Makel, sondern ein realer Einsatzstopp für alles, was auf externe Evidenz angewiesen ist.
Unterm Strich ist Hermes 3 8B (Q6_K_L) ein gutes lokales Arbeitstier für unkomplizierte, nicht zu kritische Aufgaben. Wer einen freien, direkten Assistenten für den Schreibtisch sucht, bekommt hier ein Modell mit ordentlichem Tempo und brauchbarer Alltagshärte. Wer jedoch Security-Audits, faktentreue Tool-Pipelines oder belastbares mehrstufiges Denken erwartet, sollte weiterziehen. Hermes ist kein Blender. Aber es ist auch kein Analyst. Und genau das muss man wissen, bevor man ihm Verantwortung gibt.
Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.