Qwopus-3.6-27B-Coder MTP-Q8_0

Qwopus-3.6-27B-Coder ist ein coding-spezialisiertes Agentic-Modell auf Basis von Qwen 3.6 27B mit Multi-Token-Prediction für beschleunigte Inferenz. Das Modell wurde mit Trace-Inversion-Daten und agentic-Reasoning-Traces feinabgestimmt, ist auf lokales Single-GPU-Deployment ausgelegt und arbeitet mit einem Kontextfenster von 32.000 Tokens. Unter Apache-2.0-Lizenz voll kommerziell nutzbar.

Alibaba Version 3.6-Coder-MTP (Q8_0 GGUF) Kommerzielle Nutzung erlaubt Dense 27 B (27 B aktiv) 32 K Context 06/2025 $0 / $0 per 1M

Open Weights
Desktop
SPRK
Text
Agentic Orchestrator
Instruction-Tuned
Unusable

Sovereign Risk: MEDIUM Open-Weights-Modell, abgeleitet von Qwopus3.6-27B-v2 (Community-SFT auf Qwen3.6-27B, Alibaba, CN). Die Coder-SFT verwendet lambda/hermes-agent-reasoning-traces (NousResearch/Hermes-Schema). Da das Modell rein lokal inferiert wird, entfällt CLOUD-Act-Relevanz. Das erhöhte Risiko ergibt sich aus der mehrgliedrigen Community-Modifikationskette (Basis: CN-Jurisdiktion) sowie SFT-Daten aus proprietären Modell-Outputs (Trace Inversion).

Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

Name	P1	P2	Combined
EU License Research	95	40	62
HTTP Fetch & Extract	80	80	80
Tool Failure Handling (404)	80	60	73
Web Search & Tool Selection	100	80	91
URL Construction & Fetch	80	60	70
Multilingual Search & Synthesis	100	60	80

Name

Combined

EU License Research

HTTP Fetch & Extract

Tool Failure Handling (404)

Web Search & Tool Selection

100

URL Construction & Fetch

Multilingual Search & Synthesis

100

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

Tool Call Valid: Nein

Retry: Nicht erforderlich

Halluzination: Nicht erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1: 19.88; First Request

MCP: 0.78; Protocol Latency

Synthesis: 154.08; Response Generation

Total: 1048.45; Sum of All Phases

Token: 17201; Input + Output

Cost: $0; Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Deployment-Urteil

Bedingt deploy, weil die Tool-Ausführung stark ist, aber die MCP-Calls nicht durchgängig valide waren und die Synthesequalität für vertrauenskritische Pipelines zu ungleich ausfällt.

Tool-Execution-Profil

Qwopus-3.6-27B-Coder zeigt echte Werkzeugintelligenz statt reinem Schema-Folgen. Beim Test Web Search & Tool Selection, der ohne expliziten Hinweis die Wahl zwischen Suche und direktem Abruf prüft, traf es die richtige Entscheidung durchgehend. Das spricht für brauchbare Orchestrierung in offenen Aufgabenlagen. Beim URL-Construction-Test, der die korrekte Ziel-URL aus Modellwissen ableitet und anschließend fetch verlangt, arbeitet es nur solide statt deterministisch. Das ist für produktive Pipelines relevant, weil schon kleine URL-Fehler Folgeketten brechen.

Der P1-Wert von 89.17 zeigt insgesamt hohe Ausführungsstärke. Gleichzeitig ist der Tool-Call nicht als valide markiert. Das ist der zentrale Vorbehalt. Nicht die Werkzeugwahl ist das Problem, sondern die Protokolltreue im letzten Meter. Für MCP-Pipelines heißt das: gute Planungs- und Selektionslogik, aber ein Adapter oder striktes Call-Validation-Layer sollte Pflicht sein.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Nur eingeschränkt verlässlich. Der P2-Wert von 63.33 ist für produktive Zusammenfassungen nutzbar, aber nicht stark genug für regulatorische, juristische oder entscheidungsvorbereitende Endausgaben ohne Nachprüfung. Das sieht man besonders an EU License Research: sehr gute Beschaffung, aber schwache Verdichtung. Dagegen sind HTTP Fetch & Extract und Multilingual Search & Synthesis brauchbar, solange die Ausgabe noch von einem nachgelagerten Prüfschritt kontrolliert wird.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Grundsätzlich ja, und das ist der wichtigere Befund. Im Honeypot EU License Research, der genau diesen Fehler provoziert, wurde keine Halluzination erkannt. Das Modell antwortet also nicht leichtfertig aus altem Weltwissen. Der Vertrauensrahmen bleibt damit intakt, auch wenn die Verdichtung der abgerufenen Inhalte qualitativ zu flach ist.

Fehlerresilienz

Beim 404-Test, der transparentes Verhalten bei fehlschlagendem Tool-Call verlangt, erfindet das Modell keinen Seiteninhalt. Das ist produktionsreif genug. Die P2-Leistung von 60 zeigt aber, dass die Fehlerkommunikation nicht immer sauber priorisiert und präzise formuliert wird. Akzeptabel für Assistenz- und Engineering-Flows. Für vollautomatische Nutzerantworten sollte ein Fehler-Template vorgeschaltet werden.

Souveränitätsprofil

Lokal betreibbar und fleet-kompetitiv. Mit 76.00 Combined liegt das Modell 8.07 Punkte über dem Fleet-Ø von 67.93. Für souveräne Umgebungen ist das ein belastbarer Befund. Das Provenienzrisiko der Community-Finetune-Kette bleibt jedoch mittel und gehört in die Governance-Prüfung.

Fazit & Empfehlung

Geeignet für MCP-gestützte Engineering-, Coding- und Recherchepipelines, in denen das Modell Tools auswählt, Ergebnisse einsammelt und ein Mensch oder Validator die Endausgabe prüft. Nicht die erste Wahl für Compliance-, Rechts- oder Policy-Pipelines, in denen die Synthese selbst bereits entscheidungsfähig sein muss. Wenn Sie es einsetzen, dann mit hartem Tool-Call-Schema, URL- und Argument-Validierung sowie einem zweiten Prüfschritt für verdichtete Aussagen.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.

Qwopus-3.6-27B-Coder MTP-Q8_0

Tool-Use-Profil: 6 Assets im Detail

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average