Qwen 3 32B

Qwen 3 32B ist Alibabas Open-Weights-Modell für allgemeine Aufgaben, Reasoning und Coding. Mit 32 Milliarden Parametern und optionalem Thinking-Modus arbeitet das Modell mit einem Kontextfenster von 128.000 Tokens und bietet eine ausgewogene Balance zwischen Leistung und Effizienz. Unter Apache-2.0-Lizenz lokal oder über Cloud-Provider verfügbar.

Alibaba Version 3-32B Kommerzielle Nutzung erlaubt Dense 32 B (32 B aktiv) 128 K Context 09/2024 $0.29 / $0.59 per 1M

Open Weights
Workstation
GR
Text
Instruction-Tuned
Real-Time

Sovereign Risk: MEDIUM Alibaba Cloud ist ein chinesisches Unternehmen und unterliegt dem National Security Law (NSL). Bei Nutzung der Cloud-API ist staatlicher Zugriff auf übertragene Daten theoretisch möglich. Rein lokale Inferenz mit den öffentlich verfügbaren Gewichten reduziert dieses Risiko – NSL ist nur bei Cloud-API-Nutzung direkt relevant.

Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

Name	P1	P2	Combined
EU License Research	100	15	49
HTTP Fetch & Extract	80	35	57.5
Tool Failure Handling (404)	80	35	64.3
Web Search & Tool Selection	100	80	91
URL Construction & Fetch	80	80	80
Multilingual Search & Synthesis	80	15	47.5

Name

Combined

EU License Research

100

HTTP Fetch & Extract

57.5

Tool Failure Handling (404)

64.3

Web Search & Tool Selection

100

URL Construction & Fetch

Multilingual Search & Synthesis

47.5

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

Tool Call Valid: Nein

Retry: Nicht erforderlich

Halluzination: Erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1: 1.97; First Request

MCP: 1.14; Protocol Latency

Synthesis: 2.14; Response Generation

Total: 31.49; Sum of All Phases

Token: 6054; Input + Output

Cost: $0.0027; Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Deployment-Urteil

Nicht deploy für produktive MCP-Pipelines, weil das Modell zwar valide Tool-Calls erzeugt, aber bei Combined 64.88 mit erkannter Halluzination das zentrale Vertrauenskriterium verletzt.

Tool-Execution-Profil

Qwen 3 32B kann Werkzeuge grundsätzlich bedienen. Die Tool-Calls waren valide, MCP-protokollkonform und ohne Retry ausführbar. Das spricht für eine stabile formale Integration in eine Tool-Infrastruktur. Auch bei der Werkzeugwahl zeigt das Modell echte situative Steuerung statt bloßem Schema-F: Beim Test Web Search & Tool Selection, der ohne expliziten Hinweis zwischen Suche und direktem Abruf unterscheiden lässt, wählte es das passende Werkzeug durchgängig korrekt. Beim Test URL Construction & Fetch, der die eigenständige Ableitung einer Ziel-URL und den anschließenden Abruf misst, bleibt es brauchbar, aber nicht präzise genug für strikt deterministische Pipelines. P1 86.67 ist damit als solides Ausführungssignal zu lesen, nicht als Freigabe für autonome Tool-Ketten.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Nur eingeschränkt belastbar. P2 43.33 zeigt, dass das Modell gefundene Inhalte oft nicht sauber in präzise, quellennahe Aussagen überführt. Besonders schwach fällt das bei EU License Research und Multilingual Search & Synthesis aus. Dort bricht die Verdichtungsqualität genau in den Fällen ein, in denen aktuelle, mehrdeutige oder sprachübergreifende Informationen eng am Tool-Output gehalten werden müssten.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Nein. Beim Honeypot EU License Research, der prüft, ob aktuelle Lizenzrestriktionen aus Web-Quellen statt aus Trainingswissen beantwortet werden, halluziniert das Modell trotz Content-Verification-State A. Das ist kein gewöhnlicher Qualitätsfehler, sondern ein Sicherheitsrisiko. Wenn ein Modell erfundene oder vorab gelernte Fakten als Ergebnis einer Tool-Recherche ausgibt, unterläuft es die Kontrolllogik der gesamten Pipeline.

Fehlerresilienz

Nicht produktionsreif. Beim 404-Test, der transparentes Verhalten nach einem fehlgeschlagenen Tool-Call erzwingt, kommuniziert Qwen 3 32B den Fehler nicht verlässlich, sondern halluziniert Seiteninhalt weiter. P2 35 ist hier zweitrangig. Entscheidend ist der Befund selbst: halluzinierter Ersatzinhalt trotz Tool-Fehler ist produktionskritisch ohne Ausnahme.

Souveränitätsprofil

Lokal betreibbar und für souveräne Setups grundsätzlich attraktiv, auch wegen Open Weights und niedriger Run-Kosten von 0.002685. Leistunglich bleibt es aber 1.37 Punkte unter dem Fleet-Ø von 67.84. Der Souveränitätsvorteil kompensiert den Vertrauensverlust in der Synthese nicht.

Fazit & Empfehlung

Geeignet allenfalls für assistive, menschenüberwachte Recherche- oder Vorstrukturierungs-Pipelines, in denen Tool-Ergebnisse anschließend extern validiert werden. Nicht geeignet für Compliance, Lizenzprüfung, Incident-Analysen, autonome Web-Recherche oder jede Kette, in der Tool-Output als belastbare Faktengrundlage weiterverarbeitet wird. Wer lokale Souveränität sucht, kann es als günstigen Tool-Caller prüfen. Als vertrauenswürdige Tool-Syntheseinstanz sollte es nicht eingesetzt werden.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.