Hermes 3 8B (llama.cpp, Q6_K_L) · LLM Model Review

Mit einem Gesamtscore von 59,21 Prozent zeigt Hermes 3 8B (llama.cpp, Q6_K_L) sehr deutlich, was seine Einordnung verspricht: ein direktes, hilfsbereites Instruct-Modell mit freierem Antwortstil, aber ohne die intellektuelle Reserve für anspruchsvolle Präzisionsarbeit. Als Generalist in der Edge-Klasse mit 8,0 Milliarden dichten Parametern muss es nicht die Welt erklären wie ein Frontier-Modell. Es muss auf engem Budget sauber liefern. Genau das gelingt ihm nur teilweise. Der Speed Profile Badge „Real-Time Tool Expert“ ist dabei kein Etikettenschwindel, wohl aber ein etwas großzügiges Qualitätsversprechen. Sovereign Risk: MEDIUM — die Gewichte stammen von Nous Research aus den USA; bei lokaler Nutzung greift kein Cloud-Zugriff, die US-Provenienz bleibt aber als Herkunftsrisiko relevant.

Kopfnoten: Stabilität und Zuverlässigkeit

Metrik	Wert	Bewertung	Analyse
Timeout-Rate	0/43	Stabil	Das Modell lief im Test absolut stabil und zuverlässig.
P95-Antwortzeit	28.73 s	Konsistent	Sehr geringer Tail, kaum Ausreißer.

Stabilität ist hier die gute Nachricht, und sie ist real. Auf dem lokalen Referenzsystem Apple Silicon M4, 24GB Unified Memory (Shared RAM/VRAM) lief Hermes 3 8B (llama.cpp, Q6_K_L) ohne Aussetzer durch den gesamten Parcours. Für ein lokales Edge-Modell ist das mehr als eine Fußnote, denn in dieser Gewichtsklasse entscheidet nicht nur die Rohleistung, sondern ob das Modell im Alltag überhaupt verlässlich durchläuft. Mit 47,99 Tokens pro Sekunde ist es zudem schnell genug für interaktive Nutzung. Der Badge „Real-Time Tool Expert“ signalisiert genau diesen Einsatzzweck: Antworten sollen zügig kommen, Tool-nahe Aufgaben sollen ohne zähe Denkpausen bearbeitet werden. Das passt. Nur darf man aus der flotten Gangart keine tiefere Urteilskraft ableiten.

Token-seitig verhält sich das Modell angenehm diszipliniert. Kein Modul überschreitet den erwarteten Verbosity-Rahmen. Im Gegenteil: CLI, Code Quality, Dokumentation und UX liegen sämtlich unter dem Fleet-Median. Für ein lokales Modell ist das ein echter Vorzug, weil weniger Ausgabetext hier direkt weniger Wartezeit bedeutet. Hermes redet selten länger als nötig. Das ist effizient. Es ist nur nicht dasselbe wie präzise.

Architektur und Charakter: instruiert, offen, aber nicht tief

Die Doppelmarkierung Instruct und Uncensored-Finetuned trifft den Charakter ziemlich sauber. Instruct-Modelle sind auf direkte Befehlsausführung trainiert. Sie neigen zu kürzeren, strikteren Antworten und verlieren bei komplexen Mehrfachanforderungen oft zuerst die feinen Nebenbedingungen. Genau das sieht man hier. Das Modell folgt Anweisungen meist ordentlich, hält Strukturen ein und bleibt sprachlich auf Kurs. Sobald aber Tiefe, Vollständigkeit und saubere Priorisierung gleichzeitig gefordert sind, beginnt es zu sparen. Nicht bei Tokens, sondern bei Sorgfalt.

Der Zusatz Uncensored-Finetuned ist ebenfalls relevant. Anders als abliterierte Derivate wirkt Hermes nicht mechanisch beschädigt. Es kollabiert nicht in grotesker Weise, bricht nicht serienhaft weg, und seine Grundarchitektur bleibt intakt. Aber diese Art Finetuning bringt oft eine andere Schwäche mit: Das Modell antwortet willig, mitunter fast zu willig, und verfehlt dabei Nuancen, Sicherheitsdisziplin oder die letzte analytische Strenge. Genau so verhält sich Hermes 3 8B (llama.cpp, Q6_K_L). Es ist selten störrisch. Es ist eher zu schnell zufrieden mit der eigenen ersten brauchbaren Antwort.

Code Quality und Security: formal ordentlich, fachlich zu schmal

Im Bereich Code Quality erreicht das Modell 56,7 Prozent. Das klingt nach brauchbarem Mittelfeld. Die Detailprotokolle machen daraus ein schärferes Bild: Hermes liefert oft die richtige Form, aber zu wenig Substanz. Das ist die Art Antwort, die in einer Demo sauber aussieht und im Audit trotzdem durchfällt.

Ein gutes Beispiel ist die Sicherheitsanalyse einer PHP-Anwendung. Das Modell lieferte eine korrekte deutsche Markdown-Tabelle, hielt die Struktur ein und identifizierte einige offensichtliche Schwachstellen wie SQL-Injection beim Login, Klartext-Passwörter oder eine unsaubere API-Key-Prüfung. Das Problem liegt im Umfang. Gefunden wurden 8 Schwachstellen, dokumentiert waren 19. Das ist eine Deckungslücke von 57,9 Prozent. Übersehen wurden ausgerechnet mehrere besonders folgenreiche Punkte: CSRF-Schutz fehlte, Session Fixation blieb unerkannt, Hardcoded Credentials ebenso, XSS ebenfalls, dazu zentrale Details bei Path Traversal, Reset-Token-Qualität und Cookie-Sicherheit. Das ist kein kleiner Schönheitsfehler. Wer „alle Sicherheitslücken“ finden soll und nicht einmal die Hälfte abdeckt, arbeitet nicht gründlich genug.

Noch gravierender ist die Priorisierung. Mehrere Schwachstellen wurden in Schweregrad und Kategorie falsch eingeordnet. Path Traversal wurde zu mild bewertet, IDOR-artige Probleme ebenfalls, und manche Basisfehler landeten in zu exotischen Kategorien. Das ist gefährlich, weil ein Security-Review nicht nur vom Finden lebt, sondern vom richtigen Einordnen. Ein Modell, das eine kritische Lücke als mittlere Unsauberkeit verkauft, ist wie ein Rauchmelder, der höflich hustet.

Trotzdem wäre es unfair, hier Frontier-Maßstäbe anzulegen. Hermes 3 8B (llama.cpp, Q6_K_L) ist kein spezialisiertes Code-Modell, sondern ein allgemeines Edge-Modell mit uncensored Finetuning. Schwächen in Coding- und Security-Tiefe wiegen deshalb weniger schwer als bei einem Coder-Derivat. Milder bewerten heißt aber nicht entschuldigen. Für echte Sicherheitsreviews reicht das Niveau nicht. Für erste Sichtungen, Checklisten oder grobe Orientierung schon.

CLI und Tool-Nähe: schnell, brauchbar, aber nicht narrensicher

Im CLI Benchmark kommt Hermes auf 80,56 Prozent. Das ist einer der erfreulicheren Werte im Profil. Hier zahlt sich sein Instruct-Charakter aus: direkte Aufgaben, knappe Formate, wenig philosophischer Ballast. Das Modell arbeitet in solchen Szenarien pragmatisch und ausreichend präzise. Für Shell-nahe Alltagsaufgaben, Kommandoentwürfe oder einfache Operator-Hilfen passt das gut zum Charakter eines Edge-Generalisten.

Der Haken sitzt im Tool-Use. Dort fällt der Score auf 30,0 Prozent ab, und das ist keine zufällige Delle. In vier Aufgaben halluzinierte das Modell Inhalte, die nicht aus dem abgerufenen Tool-Ergebnis stammten. Betroffen waren mehrere content-kritische Tool-Use-Szenarien; der Score wurde jeweils durch einen Halluzinations-Cap begrenzt. Für Recherche, faktengebundene Auswertung oder agentische Ketten ist das ein rotes Tuch. Wenn ein Modell externe Ergebnisse bekommt und dann trotzdem dazuerfindet, untergräbt es genau den Grund, warum man Tools überhaupt anbindet.

Das ist die eigentliche Tragik dieses Modells: Es wirkt schnell und kooperativ, also genau wie ein Kandidat für kleine Agenten-Setups. Aber sobald Tool-Ausgaben als harte Wahrheit behandelt werden müssen, wird seine Hilfsbereitschaft zur Schwäche. Hermes will antworten. Manchmal zu sehr.

Reasoning und Logik: richtige Antworten, schwache Begründungen

Im Logical Reasoning landet Hermes 3 8B (llama.cpp, Q6_K_L) bei 48,82 Prozent. Das ist kein Totalausfall, aber es ist klar unter der Schwelle, ab der man dem Modell bei kniffligen Denkschritten entspannt zuschaut. Die Protokolle zeigen ein wiederkehrendes Muster: Das Modell kommt nicht selten auf die richtige Endlösung, erklärt den Weg dorthin aber unsauber, lückenhaft oder verwirrend.

Der klassische Wächter-und-Türen-Test illustriert das gut. Hermes formulierte die richtige Frage und kam am Ende korrekt zur Entscheidung, die entgegengesetzte Tür zu wählen. Die Begründung dazu blieb jedoch verwaschen. Der entscheidende Mechanismus der doppelten Umkehr wurde nicht klar herausgearbeitet, stattdessen mäanderte die Erklärung durch halbpräzise Formulierungen. Das ist typisch für kleinere Instruct-Modelle: Das Resultat stimmt noch, die argumentative Tragkonstruktion knarzt bereits hörbar.

Gerade weil Hermes kein Thinking-Modell ist, überrascht das nicht. Von einem Edge-Dense-Modell mit 8B Parametern darf man keine tiefen Gedankengänge wie von größeren Reasoning-Spezialisten erwarten. Aber der Leser sollte den Unterschied kennen: Dieses Modell kann eine logische Aufgabe lösen. Es kann sie nicht zuverlässig didaktisch sauber aufdröseln. Für Lernkontexte, Prüfbegründungen oder belastbare Analysepfade ist das eine ernste Einschränkung.

UX Writing und Content Transformation: brauchbares Gespür, wacklige Disziplin

Im UX Writing erzielt Hermes 59,15 Prozent. Das ist kein Desaster, aber auch kein Nachweis besonderer Reife. Die qualitativen Protokolle beschreiben die Leistung treffend als ausreichende Ausführung der Kernstruktur bei schwacher psychologischer Tiefe. Das Modell erkennt Probleme, benennt sie auf Deutsch korrekt und kann Strukturvorgaben wie Tabellen oder progressive Offenlegung einhalten. Was fehlt, ist die eigentliche Qualitätsebene: Nutzerpsychologie, Theoriebezug, sprachliche Präzision im Detail. Es schreibt nicht katastrophal. Es schreibt oft wie jemand, der die Checkliste verstanden hat, aber nicht das Fach.

Im Content Transformation & Adaption steht 64,24 Prozent auf dem Scoreboard, also etwas besser. Auch hier ist die Geschichte zweigeteilt. In einer Videodrehbuch-Aufgabe lieferte das Modell ein vollständiges deutsches Skript mit vernünftiger Grundstruktur, doch die Produktionstiefe fehlte. Zu wenig visuelle Regiehinweise, keine echte Retention-Mechanik, ein schwacher Easter Egg, dazu ein Hook, der eher gesprochen als inszeniert war. Für einen Rohentwurf genügt das. Für ein produktionsreifes Skript nicht.

In einer anderen Aufgabe im Content-Transformation-Bereich überschritt das Modell die explizite Wortvorgabe von 250 Wörtern mit 308 Wörtern, also 123 Prozent des Limits. Das System verhängte dafür einen automatischen Abzug von 10,92 Punkten, entsprechend 20 Prozent des erreichbaren Teil-Scores. Die inhaltliche Qualität der Antwort ist damit irrelevant. Die Strafe greift unabhängig davon. Genau hier zeigt sich eine klassische Instruct-Schwäche kleinerer Modelle: Wenn Sprache, Format und Länge gleichzeitig sauber eingehalten werden müssen, fällt das Wortlimit oft als erste Bedingung.

Dokumentation und Wissensaufbereitung: zu wenig Fleisch am Knochen

Mit 48,06 Prozent in Documentation Quality offenbart Hermes eine weitere Kernschwäche: Es kann Informationen ordnen, aber nicht zuverlässig ausbauen. Die token-ökonomische Kürze, die bei CLI-Aufgaben angenehm wirkt, wird hier zum Problem. Gute Dokumentation braucht nicht nur Struktur, sondern Vollständigkeit, Kontext und nachvollziehbare Übergänge. Hermes spart häufig genau dort, wo erklärende Substanz nötig wäre.

Das macht das Modell für interne Notizen, Umformulierungen oder kompakte Entwürfe brauchbar. Für belastbare technische Dokumentation, die Nacharbeit spart statt erzeugt, fehlt die letzte Schicht. Man merkt, dass das Modell Antworten produzieren kann. Man merkt ebenso, dass es ungern lange Verantwortung für Details übernimmt.

Cultural Intelligence: sprachlich sicher, kulturell nicht immer fein genug

Der Cultural Intelligence-Wert von 67,6 Prozent gehört zu den freundlicheren Seiten des Profils. Die Protokolle zeigen ein Modell, das sprachlich zuverlässig auf Deutsch bleibt und toxische oder exkludierende Formulierungen meist erkennt und entfernt. Das ist gerade für ein uncensored-finetuned Modell ein respektabler Befund. Freiere Antwortpolitik muss nicht automatisch grob oder unsensibel sein.

Allerdings offenbaren die Beispiele auch die Grenzen. In einer Aufgabe zur inklusiven Umformulierung beseitigte Hermes aggressive und problematische Ausdrücke, blieb aber bei der eigentlichen Feinarbeit zu grob. Statt eines wirklich genderneutralen Begriffs wählte es eine konventionellere, weniger inklusive Form. Negative Rahmungen wurden teilweise nur umgestellt, nicht wirklich aufgelöst. Das Resultat war brauchbar, aber nicht modern souverän. Hermes versteht die Richtung. Die letzten zehn Prozent kultureller Präzision fehlen.

Halluzinationen: kein Randproblem, sondern ein eigener Risikoblock

Die Halluzinationen im Tool-Use-Bereich verdienen einen eigenen Abschnitt, weil sie nicht als Nebenwirkung anderer Schwächen abgetan werden können. In tooluse002, tooluse004, tooluse005 und tooluse006 erzeugte das Modell Inhalte, die nicht aus dem tatsächlichen Tool-Ergebnis stammten. Der Richter kappte deshalb jeweils den P2-Score. Für content-kritische Aufgaben ist das disqualifizierend.

Das ist mehr als eine typische LLM-Unsauberkeit. Gerade bei Tool-gekoppelten Workflows lautet der unausgesprochene Vertrag: Das Modell darf formulieren, ordnen, verdichten. Es darf aber nicht frei erfinden, wenn die Fakten aus einem externen Ergebnis kommen sollen. Hermes verletzt diesen Vertrag wiederholt. Wer das Modell als Recherche-Assistent, Berichtsgenerator oder Agent mit Web- und Datenbankzugriff einsetzen will, braucht harte Guardrails und idealerweise nachgelagerte Verifikation. Sonst wird aus Automatisierung sehr schnell automatisierter Unsinn.

Datenschutz und Datenhoheit

Für dieses Modell gibt es keinen klassischen Cloud-Provider, sondern offene Gewichte zur lokalen oder fremdgehosteten Nutzung. Das berechnete Sovereign Risk liegt dennoch bei MEDIUM. Der Grund ist nicht ein laufender Dienst, sondern die Herkunft: Nous Research ist ein US-Unternehmen. Relevant wird der CLOUD Act erst dann, wenn Unternehmen das Modell nicht lokal, sondern über einen Drittanbieter oder ein eigenes US-nahes Hosting betreiben. Laut Vendor Card gibt es keine GDPR-DPA, der Datenstandort ist lokal oder beim gewählten Dritt-Hoster, die Datenspeicherung bei Nous selbst liegt bei 0 Tagen. Für europäische Unternehmen ist das unkritisch, solange die Gewichte wirklich lokal betrieben werden. Sobald ein externer Hoster dazukommt, beginnt die Compliance-Prüfung von vorn.

Fazit

Hermes 3 8B (llama.cpp, Q6_K_L) ist ein ehrliches Modell im besten und schlechtesten Sinn. Es ist schnell, stabil, sparsam mit Tokens und für ein Edge-System erstaunlich alltagstauglich. Als lokaler Generalist für einfache Schreibaufgaben, CLI-Hilfe, kompakte Umformulierungen und lockere Assistenzarbeit macht es mehr richtig als falsch. Die Gewichtsprovenienz bleibt dabei mittelriskant, die lokale Ausführung selbst ist datenseitig aber klar im Vorteil.

Seine Schwächen sind allerdings nicht kosmetisch. Reasoning bleibt flach, Code- und Security-Analysen sind zu unvollständig, Dokumentation zu dünn, und die Halluzinationen im Tool-Use sind für faktenkritische Workflows ein ernstes Ausschlusskriterium. Das Modell ist kein Totalschaden. Es ist ein brauchbarer, wendiger Helfer mit begrenztem Horizont. Wer von ihm Disziplin, Tempo und Formtreue bei einfachen Aufgaben verlangt, bekommt solide Gegenleistung. Wer ihm Wahrheit, Tiefe oder Sicherheitsurteile anvertraut, sollte daneben sitzen und mitlesen. Das ist kein Affront gegen ein 8B-Modell. Es ist die nüchterne Grenze seiner Klasse.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.