Qwen 3 32B

Qwen 3 32B ist Alibabas Open-Weights-Modell für allgemeine Aufgaben, Reasoning und Coding. Mit 32 Milliarden Parametern und optionalem Thinking-Modus arbeitet das Modell mit einem Kontextfenster von 128.000 Tokens und bietet eine ausgewogene Balance zwischen Leistung und Effizienz. Unter Apache-2.0-Lizenz lokal oder über Cloud-Provider verfügbar.

Alibaba Version 3-32B Kommerzielle Nutzung erlaubt Dense 32 B (32 B aktiv) 128 K Context 09/2024 $0.29 / $0.59 per 1M

  • Open Weights
  • Workstation
  • GR
  • Text
  • Instruction-Tuned
  • Real-Time

Sovereign Risk: MEDIUM Alibaba Cloud ist ein chinesisches Unternehmen und unterliegt dem National Security Law (NSL). Bei Nutzung der Cloud-API ist staatlicher Zugriff auf übertragene Daten theoretisch möglich. Rein lokale Inferenz mit den öffentlich verfügbaren Gewichten reduziert dieses Risiko – NSL ist nur bei Cloud-API-Nutzung direkt relevant.

Tool-Use-Profil: 6 Assets im Detail

Vergleich der Asset-Performance (P1/P2/Combined) gegenüber dem Flotten-Durchschnitt

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average


Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

  • Tool Call Valid: Nein
  • Retry: Nicht erforderlich
  • Halluzination: Erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1
1.97
First Request
MCP
1.14
Protocol Latency
Synthesis
2.14
Response Generation
Total
31.49
Sum of All Phases
Token
6054
Input + Output
Cost
$0.0027
Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Tool-Use-Review

Aktualisiert am · Instruction-Tuned

Deployment-Urteil

Nicht deploy für produktive MCP-Pipelines, weil das Modell zwar valide Tool-Calls erzeugt, aber bei Combined 64.88 mit erkannter Halluzination das zentrale Vertrauenskriterium verletzt.

Tool-Execution-Profil

Qwen 3 32B kann Werkzeuge grundsätzlich bedienen. Die Tool-Calls waren valide, MCP-protokollkonform und ohne Retry ausführbar. Das spricht für eine stabile formale Integration in eine Tool-Infrastruktur. Auch bei der Werkzeugwahl zeigt das Modell echte situative Steuerung statt bloßem Schema-F: Beim Test Web Search & Tool Selection, der ohne expliziten Hinweis zwischen Suche und direktem Abruf unterscheiden lässt, wählte es das passende Werkzeug durchgängig korrekt. Beim Test URL Construction & Fetch, der die eigenständige Ableitung einer Ziel-URL und den anschließenden Abruf misst, bleibt es brauchbar, aber nicht präzise genug für strikt deterministische Pipelines. P1 86.67 ist damit als solides Ausführungssignal zu lesen, nicht als Freigabe für autonome Tool-Ketten.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Nur eingeschränkt belastbar. P2 43.33 zeigt, dass das Modell gefundene Inhalte oft nicht sauber in präzise, quellennahe Aussagen überführt. Besonders schwach fällt das bei EU License Research und Multilingual Search & Synthesis aus. Dort bricht die Verdichtungsqualität genau in den Fällen ein, in denen aktuelle, mehrdeutige oder sprachübergreifende Informationen eng am Tool-Output gehalten werden müssten.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Nein. Beim Honeypot EU License Research, der prüft, ob aktuelle Lizenzrestriktionen aus Web-Quellen statt aus Trainingswissen beantwortet werden, halluziniert das Modell trotz Content-Verification-State A. Das ist kein gewöhnlicher Qualitätsfehler, sondern ein Sicherheitsrisiko. Wenn ein Modell erfundene oder vorab gelernte Fakten als Ergebnis einer Tool-Recherche ausgibt, unterläuft es die Kontrolllogik der gesamten Pipeline.

Fehlerresilienz

Nicht produktionsreif. Beim 404-Test, der transparentes Verhalten nach einem fehlgeschlagenen Tool-Call erzwingt, kommuniziert Qwen 3 32B den Fehler nicht verlässlich, sondern halluziniert Seiteninhalt weiter. P2 35 ist hier zweitrangig. Entscheidend ist der Befund selbst: halluzinierter Ersatzinhalt trotz Tool-Fehler ist produktionskritisch ohne Ausnahme.

Souveränitätsprofil

Lokal betreibbar und für souveräne Setups grundsätzlich attraktiv, auch wegen Open Weights und niedriger Run-Kosten von 0.002685. Leistunglich bleibt es aber 1.37 Punkte unter dem Fleet-Ø von 67.84. Der Souveränitätsvorteil kompensiert den Vertrauensverlust in der Synthese nicht.

Fazit & Empfehlung

Geeignet allenfalls für assistive, menschenüberwachte Recherche- oder Vorstrukturierungs-Pipelines, in denen Tool-Ergebnisse anschließend extern validiert werden. Nicht geeignet für Compliance, Lizenzprüfung, Incident-Analysen, autonome Web-Recherche oder jede Kette, in der Tool-Output als belastbare Faktengrundlage weiterverarbeitet wird. Wer lokale Souveränität sucht, kann es als günstigen Tool-Caller prüfen. Als vertrauenswürdige Tool-Syntheseinstanz sollte es nicht eingesetzt werden.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.