Qwen 3.7 Max

Qwen 3.7 Max ist Alibabas proprietäres Flagship-Modell der Qwen-3.7-Serie mit Fokus auf agentische Coding-Workflows und autonome Betriebsdauer von bis zu 35 Stunden. Das Modell arbeitet mit einem Kontextfenster von einer Million Tokens, konfigurierbarem Thinking-Modus und nativer Tool-Use-Unterstützung. Ausschliesslich über Cloud-APIs verfügbar, die chinesische Jurisdiktion ist zu beachten.

Alibaba Version 3.7-max Kommerzielle Nutzung erlaubt MoE 1000 K Context 01/2026 $1.25 / $3.75 per 1M

  • Proprietär
  • Frontier
  • OR
  • Text
  • Instruction-Tuned
  • Agentic Orchestrator
  • Batch

Sovereign Risk: HIGH Das Modell wird ausschließlich über die Alibaba Cloud API betrieben. Daten, die über die API übertragen werden, unterliegen dem chinesischen National Security Law (NSL), das staatlichen Zugriff auf Daten ermöglichen kann. Lokales Deployment ist nicht möglich – keine Gewichte verfügbar.

Tool-Use-Profil: 6 Assets im Detail

Vergleich der Asset-Performance (P1/P2/Combined) gegenüber dem Flotten-Durchschnitt

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average


Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

  • Tool Call Valid: Nein
  • Retry: Erforderlich
  • Halluzination: Nicht erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1
13.9
First Request
MCP
0.82
Protocol Latency
Synthesis
37.13
Response Generation
Total
311.11
Sum of All Phases
Token
7338
Input + Output
Cost
$0.0157
Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Tool-Use-Review

Aktualisiert am · Instruction-Tuned · Agentic Orchestrator

Deployment-Urteil

Bedingt deploy, weil die Tool-Nutzung inhaltlich oft tragfähig ist, aber die Calls nicht durchgehend valide sind und ein Retry erforderlich war. Der Combined-Score von 69.54 reicht für produktive Nebenpfade, nicht für hochgradig deterministische Kernorchestrierung.

Tool-Execution-Profil

Qwen 3.7 Max zeigt solides Ausführungsverhalten, sobald der richtige Zugriffspfad feststeht. Bei HTTP Fetch & Extract sowie Tool Failure Handling (404), also bei klar vorgegebenem Tool-Pfad, arbeitet es robust. Auch beim URL-Construction-Test, der prüft ob das Modell die Ziel-URL selbst herleiten und dann korrekt abrufen kann, ist die Leistung brauchbar.

Der Schwachpunkt liegt bei der Werkzeugwahl. Beim Web-Search-and-Tool-Selection-Test, der ohne expliziten Hinweis zwischen web_search und fetch unterscheiden lässt, fällt P1 mit 35 deutlich ab. Das spricht gegen verlässliche Tool-Intelligenz in offenen Umgebungen. Das Modell folgt hier eher einem naheliegenden Abrufmuster, statt den Informationszugang situativ korrekt zu wählen. Für MCP-Pipelines heißt das: gut mit enger Tool-Governance, schwach bei freier Orchestrierung.

Dass ein Retry nötig war, wirkt hier eher wie ein Protokoll- oder Formatproblem als ein reines Verständnisversagen. Inhaltlich trifft das Modell häufig die richtige Arbeitsrichtung, aber nicht stabil genug in der ersten, formal gültigen Ausführung.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Nur moderat. P2 von 63.33 zeigt, dass die Zusammenfassungen meist nützlich sind, aber nicht konstant präzise verdichten. Das sieht man auch an EU License Research und Multilingual Search & Synthesis: starke Beschaffung, aber nur mittelstarke Endverdichtung. Für Architekturen, in denen das Modell Tool-Ausgaben in knappe Entscheidungsgrundlagen überführen soll, braucht es nachgelagerte Validierung.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Hier ist das Vertrauenssignal besser. Beim Honeypot EU License Research, der prüft ob aktuelle Lizenzrestriktionen wirklich aus Web-Quellen geholt werden, blieb das Modell im verifizierten Inhaltsraum. Keine Halluzination, Content-Verification-State A. Das ist für Compliance-nahe Recherchen ein klar positives Signal.

Fehlerresilienz

Beim 404-Test, der transparentes Verhalten bei fehlschlagendem Abruf prüft, reagiert Qwen 3.7 Max produktionsgerecht. Es erfindet keinen Seiteninhalt und kommuniziert den Fehler offen. Genau dieses Verhalten ist in Tool-Pipelines akzeptabel, weil der Orchestrator den Fehler gezielt behandeln kann.

Betriebsprofil

Langsam. 13.90s im ersten Call, 37.13s im zweiten, 311.11s total.
Günstig bis moderat. 0.015659 USD pro Run.
Im Verhältnis zur Leistung ist das Kostenprofil vertretbar, das Latenzprofil aber klar der begrenzende Faktor.

Fazit & Empfehlung

Geeignet für MCP-Pipelines mit enger Tool-Führung, klaren Tool-Gates und Retry-Logik, etwa Rechercheketten, dokumentenzentrierte Extraktion und mehrsprachige Web-Aufgaben. Nicht geeignet als frei agierender Tool-Planer, der selbstständig zwischen Suche, Abruf und Synthese wählen muss. Wer das Modell einsetzt, sollte Tool-Selection extern absichern und Antworten mit strukturellen Checks gegen die tatsächlichen Tool-Ergebnisse binden.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.