Qwen 3 Coder Next Q4_K_XL

Qwen 3 Coder Next ist ein Coding-spezialisiertes Open-Weights-MoE-Modell von Alibaba mit 80 Milliarden Gesamt- und 3 Milliarden aktiven Parametern. Die Q4-Quantisierung reduziert den Speicherbedarf für lokale Inferenz deutlich, das Kontextfenster umfasst 262.000 Tokens. Unter Apache-2.0-Lizenz auf Workstation-Hardware lokal betreibbar, optimiert für Coding-Agents und grosse Codebasen.

Alibaba Version 3 Coder Next Kommerzielle Nutzung erlaubt MoE 80 B (3 B aktiv) 262 K Context 05/2025 $0 / $0 per 1M

Open Weights
Workstation
SPRK
Text
Instruction-Tuned
Agentic Orchestrator
Interactive

Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

Name	P1	P2	Combined
EU License Research	100	60	76
HTTP Fetch & Extract	80	60	70
Tool Failure Handling (404)	80	80	80
Web Search & Tool Selection	100	35	70.8
URL Construction & Fetch	80	80	80
Multilingual Search & Synthesis	100	15	57.5

Name

Combined

EU License Research

100

HTTP Fetch & Extract

Tool Failure Handling (404)

Web Search & Tool Selection

100

70.8

URL Construction & Fetch

Multilingual Search & Synthesis

100

57.5

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

Tool Call Valid: Ja

Retry: Nicht erforderlich

Halluzination: Erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1: 1.58; First Request

MCP: 0.84; Protocol Latency

Synthesis: 12.74; Response Generation

Total: 90.98; Sum of All Phases

Token: 9962; Input + Output

Cost: $0; Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Deployment-Urteil

Bedingt deploy, weil die Tool-Ausführung belastbar ist, die Tool-Calls valide bleiben und der Gesamteindruck gut ausfällt, aber die Synthesequalität mit erkannten Halluzinationen nicht stabil genug für unbeaufsichtigte High-Trust-Pipelines ist.

Tool-Execution-Profil

Dieses Modell kann man einer MCP-Toolkette grundsätzlich anvertrauen. Es wählt Werkzeuge nicht nur schematisch, sondern zeigt echte Auswahlintelligenz: Beim Web-Search-&-Tool-Selection-Test erkennt es ohne expliziten Hinweis korrekt, dass erst Suche statt direktem Fetch nötig ist. Das spricht für agentisches Verhalten in offenen Retrieval-Flows. Beim URL-Construction-Test, der die korrekte Ziel-URL aus Eigenwissen ableiten und dann per Fetch abrufen soll, arbeitet es brauchbar, aber nicht deterministisch genug für Pipelines mit harter URL-Präzision. Die P1-Werte zeigen damit ein klares Profil: hohe Protokolltreue, gute Werkzeugwahl, leichte Schwäche in der exakten Vorstufe zum Abruf. Positiv ist auch, dass kein Retry nötig war. Das ist ein Verständnissignal, kein bloßer Format-Treffer.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Nur eingeschränkt zuverlässig. Die Ausführung ist stark, aber die nachgelagerte Verdichtung bleibt der Engpass. Besonders beim HTTP-Fetch-&-Extract-Test, der strukturierte Fakten wie Jahreszahlen und Eigennamen aus realem Seiteninhalt ziehen soll, fällt die Präzision sichtbar ab. Auch beim Web-Search-&-Tool-Selection-Test war die Werkzeugwahl korrekt, die Synthese des gefundenen Materials aber schwach. Für produktive Tool-Pipelines heißt das: Das Modell findet oft den richtigen Pfad, formuliert das Ergebnis aber nicht konsistent präzise genug.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Im Honeypot EU License Research, der prüfen soll, ob aktuelle Lizenzrestriktionen wirklich aus Web-Quellen gezogen werden, bleibt es im Ergebnisraum der Tools. Das ist das wichtigste Vertrauenssignal hier. Gleichzeitig steht ein global erkannter Halluzinationsbefund im Lauf. Das ist kein bloßer Qualitätsmangel, sondern ein Sicherheitsrisiko: Wenn ein Modell erfundene Fakten als Tool-Resultat ausgibt, unterläuft es die Verlässlichkeit der gesamten Infrastruktur.

Fehlerresilienz

Bei Tool-Fehlern reagiert das Modell produktionsgerecht. Im 404-Test, der transparentes Verhalten bei fehlgeschlagenem Abruf prüft, kommuniziert es den Fehler, statt Seiteninhalt zu erfinden. Genau dieses Verhalten ist für produktive Agents akzeptabel. Der Befund ist klar positiv.

Souveränitätsprofil

Lokal betreibbar und praktisch einsetzbar. Mit einem Combined-Score von 70.88 liegt es 1.37 Punkte über dem Fleet-Ø von 67.84. Für eine lokale Q4-GGUF-Variante ist das ein starker Souveränitätswert, gerade weil die Tool-Ausführung nicht sichtbar unter der Quantisierung kollabiert.

Fazit & Empfehlung

Geeignet für lokale Coding- und Agent-Pipelines, in denen Tool-Navigation, Web-Recherche, Fehlertransparenz und MCP-Konformität wichtiger sind als perfekte Endverdichtung. Nicht geeignet für Compliance-, Policy- oder Executive-Summary-Strecken ohne nachgelagerte Validierung. Empfehlenswert als Worker-Modell mit Guardrails: Tool-first, Zitate oder Rohresultate sichtbar halten, finale Synthese entweder überprüfen oder an ein stärkeres Verdichtungsmodell übergeben.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.