Qwen 3.7 Max

Qwen 3.7 Max ist Alibabas proprietäres Flagship-Modell der Qwen-3.7-Serie mit Fokus auf agentische Coding-Workflows und autonome Betriebsdauer von bis zu 35 Stunden. Das Modell arbeitet mit einem Kontextfenster von einer Million Tokens, konfigurierbarem Thinking-Modus und nativer Tool-Use-Unterstützung. Ausschliesslich über Cloud-APIs verfügbar, die chinesische Jurisdiktion ist zu beachten.

Alibaba Version 3.7-max Kommerzielle Nutzung erlaubt MoE 1000 K Context 01/2026 $1.25 / $3.75 per 1M

Proprietär
Frontier
OR
Text
Instruction-Tuned
Agentic Orchestrator
Batch

Sovereign Risk: HIGH Das Modell wird ausschließlich über die Alibaba Cloud API betrieben. Daten, die über die API übertragen werden, unterliegen dem chinesischen National Security Law (NSL), das staatlichen Zugriff auf Daten ermöglichen kann. Lokales Deployment ist nicht möglich – keine Gewichte verfügbar.

Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

Name	P1	P2	Combined
EU License Research	95	60	74
HTTP Fetch & Extract	80	80	80
Tool Failure Handling (404)	80	80	80
Web Search & Tool Selection	35	20	28.3
URL Construction & Fetch	75	80	77.5
Multilingual Search & Synthesis	95	60	77.5

Name

Combined

EU License Research

HTTP Fetch & Extract

Tool Failure Handling (404)

Web Search & Tool Selection

28.3

URL Construction & Fetch

77.5

Multilingual Search & Synthesis

77.5

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

Tool Call Valid: Nein

Retry: Erforderlich

Halluzination: Nicht erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1: 13.9; First Request

MCP: 0.82; Protocol Latency

Synthesis: 37.13; Response Generation

Total: 311.11; Sum of All Phases

Token: 7338; Input + Output

Cost: $0.0157; Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Deployment-Urteil

Bedingt deploy, weil die Tool-Nutzung inhaltlich oft tragfähig ist, aber die Calls nicht durchgehend valide sind und ein Retry erforderlich war. Der Combined-Score von 69.54 reicht für produktive Nebenpfade, nicht für hochgradig deterministische Kernorchestrierung.

Tool-Execution-Profil

Qwen 3.7 Max zeigt solides Ausführungsverhalten, sobald der richtige Zugriffspfad feststeht. Bei HTTP Fetch & Extract sowie Tool Failure Handling (404), also bei klar vorgegebenem Tool-Pfad, arbeitet es robust. Auch beim URL-Construction-Test, der prüft ob das Modell die Ziel-URL selbst herleiten und dann korrekt abrufen kann, ist die Leistung brauchbar.

Der Schwachpunkt liegt bei der Werkzeugwahl. Beim Web-Search-and-Tool-Selection-Test, der ohne expliziten Hinweis zwischen web_search und fetch unterscheiden lässt, fällt P1 mit 35 deutlich ab. Das spricht gegen verlässliche Tool-Intelligenz in offenen Umgebungen. Das Modell folgt hier eher einem naheliegenden Abrufmuster, statt den Informationszugang situativ korrekt zu wählen. Für MCP-Pipelines heißt das: gut mit enger Tool-Governance, schwach bei freier Orchestrierung.

Dass ein Retry nötig war, wirkt hier eher wie ein Protokoll- oder Formatproblem als ein reines Verständnisversagen. Inhaltlich trifft das Modell häufig die richtige Arbeitsrichtung, aber nicht stabil genug in der ersten, formal gültigen Ausführung.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Nur moderat. P2 von 63.33 zeigt, dass die Zusammenfassungen meist nützlich sind, aber nicht konstant präzise verdichten. Das sieht man auch an EU License Research und Multilingual Search & Synthesis: starke Beschaffung, aber nur mittelstarke Endverdichtung. Für Architekturen, in denen das Modell Tool-Ausgaben in knappe Entscheidungsgrundlagen überführen soll, braucht es nachgelagerte Validierung.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Hier ist das Vertrauenssignal besser. Beim Honeypot EU License Research, der prüft ob aktuelle Lizenzrestriktionen wirklich aus Web-Quellen geholt werden, blieb das Modell im verifizierten Inhaltsraum. Keine Halluzination, Content-Verification-State A. Das ist für Compliance-nahe Recherchen ein klar positives Signal.

Fehlerresilienz

Beim 404-Test, der transparentes Verhalten bei fehlschlagendem Abruf prüft, reagiert Qwen 3.7 Max produktionsgerecht. Es erfindet keinen Seiteninhalt und kommuniziert den Fehler offen. Genau dieses Verhalten ist in Tool-Pipelines akzeptabel, weil der Orchestrator den Fehler gezielt behandeln kann.

Betriebsprofil

Langsam. 13.90s im ersten Call, 37.13s im zweiten, 311.11s total.
Günstig bis moderat. 0.015659 USD pro Run.
Im Verhältnis zur Leistung ist das Kostenprofil vertretbar, das Latenzprofil aber klar der begrenzende Faktor.

Fazit & Empfehlung

Geeignet für MCP-Pipelines mit enger Tool-Führung, klaren Tool-Gates und Retry-Logik, etwa Rechercheketten, dokumentenzentrierte Extraktion und mehrsprachige Web-Aufgaben. Nicht geeignet als frei agierender Tool-Planer, der selbstständig zwischen Suche, Abruf und Synthese wählen muss. Wer das Modell einsetzt, sollte Tool-Selection extern absichern und Antworten mit strukturellen Checks gegen die tatsächlichen Tool-Ergebnisse binden.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.

Qwen 3.7 Max

Tool-Use-Profil: 6 Assets im Detail

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average

Tool-Use-Details

Reliability

Betriebsprofil

Tool-Use-Review

Deployment-Urteil

Tool-Execution-Profil

Synthesetreue

Fehlerresilienz

Betriebsprofil

Fazit & Empfehlung