Qwopus 3.6-27B-v2 MTP-Q8_0

Qwopus 3.6-27B-v2 ist ein Open-Weights-Modell auf Basis von Qwen 3.6 27B, trainiert mit Trace Inversion von Claude-Opus-Reasoning-Trajektorien. Die Q8-Quantisierung mit Multi-Token-Prediction bietet einen Geschwindigkeitsvorteil gegenüber dem Basis-Modell bei erhaltener Qualität, das Kontextfenster umfasst 32.000 Tokens. Unter Apache-2.0-Lizenz auf einer einzelnen GPU lokal betreibbar, vollständig kommerziell nutzbar.

Alibaba Version 3.6-MTP (Q8_0 GGUF) Kommerzielle Nutzung erlaubt Dense 27 B (27 B aktiv) 32 K Context 06/2025 $0 / $0 per 1M

Open Weights
Desktop
SPRK
Text
Instruction-Tuned
Unusable

Sovereign Risk: MEDIUM Open-Weights-Modell, basierend auf Qwen3.6-27B (Alibaba, China). Die Fine-Tuning-Daten verwenden Trace Inversion von Claude Opus 4.6/4.7-Reasoning-Trajectories. Da das Modell rein lokal inferiert wird, entfällt CLOUD-Act-Relevanz. Das erhöhte Risiko ergibt sich aus der mehrgliedrigen Community-Modifikationskette (Basis: CN-Jurisdiktion, SFT-Daten aus proprietären Modell-Outputs).

Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

Name	P1	P2	Combined
EU License Research	100	40	64
HTTP Fetch & Extract	80	15	47.5
Tool Failure Handling (404)	80	80	80
Web Search & Tool Selection	95	60	79.3
URL Construction & Fetch	80	60	70
Multilingual Search & Synthesis	100	40	70

Name

Combined

EU License Research

100

HTTP Fetch & Extract

47.5

Tool Failure Handling (404)

Web Search & Tool Selection

79.3

URL Construction & Fetch

Multilingual Search & Synthesis

100

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

Tool Call Valid: Nein

Retry: Nicht erforderlich

Halluzination: Erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1: 15.53; First Request

MCP: 1.14; Protocol Latency

Synthesis: 82.4; Response Generation

Total: 594.43; Sum of All Phases

Token: 14004; Input + Output

Cost: $0; Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Deployment-Urteil

Bedingt deploy, weil die Tool-Ausführung stark ist, aber die Synthesetreue mit Halluzinationssignal und ungültigem Tool-Call nicht verlässlich genug für unbeaufsichtigte MCP-Pipelines ist.

Tool-Execution-Profil

Qwopus 3.6-27B-v2 MTP-Q8_0 zeigt echte Werkzeugwahl statt bloßem Standardmuster. Im Test Web Search & Tool Selection, der prüft ob ohne Hinweis search statt fetch gewählt wird, erreicht es P1 95. Das spricht für situative Tool-Intelligenz. Beim URL-Construction-Test, der die Ableitung einer Ziel-URL aus Eigenwissen und den anschließenden Fetch misst, ist es mit P1 80 noch brauchbar, aber nicht deterministisch genug für fragile Produktionspfade.

Der Hauptvorbehalt ist operativ: Tool-Call valide ist False. Das heißt nicht, dass das Modell keine Tools nutzen kann. Es heißt, dass es MCP-seitig nicht durchgehend protokollsauber bleibt. Für eine Pipeline mit hartem Schema und automatischer Weiterverarbeitung ist das ein reales Integrationsrisiko. Retry war nicht erforderlich. Das spricht eher gegen ein bloßes Formatproblem und eher für inkonsistente Call-Erzeugung unter Last oder in Teilfällen.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Nur eingeschränkt. P2 49.17 ist der schwache Teil dieses Profils. Besonders im Test HTTP Fetch & Extract, der strukturierte Fakten aus echtem Seiteninhalt verlangt, fällt die Verdichtung mit P2 15 klar ab. Das Modell ruft also häufig das richtige Werkzeug auf, überführt die Ergebnisse aber nicht stabil in präzise, belastbare Antworten.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Im Honeypot EU License Research, der prüft ob aktuelle Lizenzrestriktionen wirklich aus Web-Quellen gezogen werden, halluziniert es nicht. Das ist ein positives Vertrauenssignal. Gleichzeitig ist global Halluzination erkannt: True. Das ist kein bloßer Qualitätsfehler, sondern ein Sicherheitsrisiko. Sobald ein Modell erfundene Fakten als Tool-Ergebnis ausgibt, verliert die gesamte Tool-Infrastruktur ihren Prüfpfad.

Fehlerresilienz

Im 404-Test, der transparente Reaktion auf einen fehlschlagenden Tool-Call misst, verhält sich das Modell produktionsnah. P2 80 und keine Halluzination trotz 404 bedeuten: Es kommuniziert den Fehler statt Seiteninhalt zu erfinden. Das ist für reale Pipelines akzeptabel und deutlich wichtiger als sprachliche Eleganz.

Souveränitätsprofil

Lokal betreibbar und im Gesamtwert fleet-kompetitiv. Sovereignty Gap: n/a Punkte unter dem Fleet-Ø von 67.93. Operativ attraktiv für Umgebungen mit Datenhoheit, aber die Provenienz bleibt wegen der Community-Fine-Tuning-Kette ein Governance-Thema.

Fazit & Empfehlung

Geeignet für lokale, souveräne Assistenz- und Recherchepipelines mit menschlicher Abnahme, robuster Schema-Validierung und klarer Post-Processing-Kontrolle. Nicht geeignet für Compliance-, Vertrags-, Regulierungs- oder andere High-Trust-Pipelines, in denen Tool-Ergebnisse unverändert weiterverarbeitet werden. Wenn Sie es einsetzen, dann als toolfähigen Vorarbeiter, nicht als letzte Instanz.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.