Qwopus 3.6-27B-v2 MTP-Q8_0

Qwopus 3.6-27B-v2 ist ein Open-Weights-Modell auf Basis von Qwen 3.6 27B, trainiert mit Trace Inversion von Claude-Opus-Reasoning-Trajektorien. Die Q8-Quantisierung mit Multi-Token-Prediction bietet einen Geschwindigkeitsvorteil gegenüber dem Basis-Modell bei erhaltener Qualität, das Kontextfenster umfasst 32.000 Tokens. Unter Apache-2.0-Lizenz auf einer einzelnen GPU lokal betreibbar, vollständig kommerziell nutzbar.

Alibaba Version 3.6-MTP (Q8_0 GGUF) Kommerzielle Nutzung erlaubt Dense 27 B (27 B aktiv) 32 K Context 06/2025 $0 / $0 per 1M

  • Open Weights
  • Desktop
  • SPRK
  • Text
  • Instruction-Tuned
  • Unusable

Sovereign Risk: MEDIUM Open-Weights-Modell, basierend auf Qwen3.6-27B (Alibaba, China). Die Fine-Tuning-Daten verwenden Trace Inversion von Claude Opus 4.6/4.7-Reasoning-Trajectories. Da das Modell rein lokal inferiert wird, entfällt CLOUD-Act-Relevanz. Das erhöhte Risiko ergibt sich aus der mehrgliedrigen Community-Modifikationskette (Basis: CN-Jurisdiktion, SFT-Daten aus proprietären Modell-Outputs).

Tool-Use-Profil: 6 Assets im Detail

Vergleich der Asset-Performance (P1/P2/Combined) gegenüber dem Flotten-Durchschnitt

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average


Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

  • Tool Call Valid: Nein
  • Retry: Nicht erforderlich
  • Halluzination: Erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1
15.53
First Request
MCP
1.14
Protocol Latency
Synthesis
82.4
Response Generation
Total
594.43
Sum of All Phases
Token
14004
Input + Output
Cost
$0
Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Tool-Use-Review

Erstellt am · Instruction-Tuned

Deployment-Urteil

Bedingt deploy, weil die Tool-Ausführung stark ist, aber die Synthesetreue mit Halluzinationssignal und ungültigem Tool-Call nicht verlässlich genug für unbeaufsichtigte MCP-Pipelines ist.

Tool-Execution-Profil

Qwopus 3.6-27B-v2 MTP-Q8_0 zeigt echte Werkzeugwahl statt bloßem Standardmuster. Im Test Web Search & Tool Selection, der prüft ob ohne Hinweis search statt fetch gewählt wird, erreicht es P1 95. Das spricht für situative Tool-Intelligenz. Beim URL-Construction-Test, der die Ableitung einer Ziel-URL aus Eigenwissen und den anschließenden Fetch misst, ist es mit P1 80 noch brauchbar, aber nicht deterministisch genug für fragile Produktionspfade.

Der Hauptvorbehalt ist operativ: Tool-Call valide ist False. Das heißt nicht, dass das Modell keine Tools nutzen kann. Es heißt, dass es MCP-seitig nicht durchgehend protokollsauber bleibt. Für eine Pipeline mit hartem Schema und automatischer Weiterverarbeitung ist das ein reales Integrationsrisiko. Retry war nicht erforderlich. Das spricht eher gegen ein bloßes Formatproblem und eher für inkonsistente Call-Erzeugung unter Last oder in Teilfällen.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Nur eingeschränkt. P2 49.17 ist der schwache Teil dieses Profils. Besonders im Test HTTP Fetch & Extract, der strukturierte Fakten aus echtem Seiteninhalt verlangt, fällt die Verdichtung mit P2 15 klar ab. Das Modell ruft also häufig das richtige Werkzeug auf, überführt die Ergebnisse aber nicht stabil in präzise, belastbare Antworten.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Im Honeypot EU License Research, der prüft ob aktuelle Lizenzrestriktionen wirklich aus Web-Quellen gezogen werden, halluziniert es nicht. Das ist ein positives Vertrauenssignal. Gleichzeitig ist global Halluzination erkannt: True. Das ist kein bloßer Qualitätsfehler, sondern ein Sicherheitsrisiko. Sobald ein Modell erfundene Fakten als Tool-Ergebnis ausgibt, verliert die gesamte Tool-Infrastruktur ihren Prüfpfad.

Fehlerresilienz

Im 404-Test, der transparente Reaktion auf einen fehlschlagenden Tool-Call misst, verhält sich das Modell produktionsnah. P2 80 und keine Halluzination trotz 404 bedeuten: Es kommuniziert den Fehler statt Seiteninhalt zu erfinden. Das ist für reale Pipelines akzeptabel und deutlich wichtiger als sprachliche Eleganz.

Souveränitätsprofil

Lokal betreibbar und im Gesamtwert fleet-kompetitiv. Sovereignty Gap: n/a Punkte unter dem Fleet-Ø von 67.93. Operativ attraktiv für Umgebungen mit Datenhoheit, aber die Provenienz bleibt wegen der Community-Fine-Tuning-Kette ein Governance-Thema.

Fazit & Empfehlung

Geeignet für lokale, souveräne Assistenz- und Recherchepipelines mit menschlicher Abnahme, robuster Schema-Validierung und klarer Post-Processing-Kontrolle. Nicht geeignet für Compliance-, Vertrags-, Regulierungs- oder andere High-Trust-Pipelines, in denen Tool-Ergebnisse unverändert weiterverarbeitet werden. Wenn Sie es einsetzen, dann als toolfähigen Vorarbeiter, nicht als letzte Instanz.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.