Gemini 3.5 Flash

Gemini 3.5 Flash ist Googles schnellste Frontier-Klasse und liefert nahezu Pro-Level-Leistung bei Flash-Preisen. Mit Dynamic Thinking in vier konfigurierbaren Stufen, einem Kontextfenster von einer Million Tokens und vollständiger Multimodalität für Text, Bilder, Audio, Video und PDF eignet sich das Modell für agentische Workflows, Coding und Workloads mit hohem Durchsatz.

Google Version 3.5-flash Kommerzielle Nutzung erlaubt MoE 1000 K Context 01/2025 $1.5 / $9 per 1M

Proprietär
Server
API
Text
Vision
Audio
Video
Agentic Orchestrator
Real-Time

Sovereign Risk: MEDIUM Google DeepMind ist ein US-amerikanisches Unternehmen und unterliegt dem CLOUD Act; die Modellgewichte sind nicht öffentlich zugänglich.

Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

Name	P1	P2	Combined
EU License Research	100	60	76
HTTP Fetch & Extract	80	100	90
Tool Failure Handling (404)	40	40	37
Web Search & Tool Selection	100	80	91
URL Construction & Fetch	80	60	70
Multilingual Search & Synthesis	100	40	70

Name

Combined

EU License Research

100

HTTP Fetch & Extract

100

Tool Failure Handling (404)

Web Search & Tool Selection

100

URL Construction & Fetch

Multilingual Search & Synthesis

100

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

Tool Call Valid: Nein

Retry: Nicht erforderlich

Halluzination: Nicht erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1: 1.59; First Request

MCP: 0.91; Protocol Latency

Synthesis: 6.13; Response Generation

Total: 51.79; Sum of All Phases

Token: 6287; Input + Output

Cost: $0; Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Deployment-Urteil

Bedingt deploy, weil Gemini 3.5 Flash valide Tool-Calls liefert, keine Halluzination im Lauf zeigte und mit solidem Gesamtbild zuverlässig in die Infrastruktur greift, die Synthesequalität aber für entscheidungsrelevante Outputs zu uneinheitlich bleibt.

Tool-Execution-Profil

Die Tool-Ausführung ist die klare Stärke dieses Modells. Mit P1 90 wählt es Werkzeuge meist richtig, erzeugt valide Calls und bleibt MCP-konform. Entscheidend ist, dass es beim Web-Search-and-Tool-Selection-Test, der ohne expliziten Hinweis die Wahl zwischen Suche und direktem Fetch prüft, sauber auf web_search schaltet. Das spricht gegen reines Schema-Folgen und für echte Werkzeugwahl anhand der Aufgabe.

Beim URL-Construction-Test, der prüft, ob das Modell eine Ziel-URL aus eigenem Wissen ableiten und dann korrekt abrufen kann, fällt es auf P1 80 zurück. Das ist brauchbar, aber nicht deterministisch genug für Pipelines, in denen URL-Bildung präzise sitzen muss. Retry war nicht erforderlich. Das Problem liegt also nicht im Protokollformat, sondern in der inhaltlichen Präzision einzelner Ausführungsschritte. Als vision-language MoE-Modell sollte man den Text-only-Befund zudem nicht überdehnen. Er zeigt nur den sprachlichen Tool-Use-Teil, nicht die multimodale Hauptstärke.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Nur eingeschränkt überzeugend. P2 56.67 zeigt, dass Gemini 3.5 Flash gefundene Inhalte oft korrekt aufnimmt, aber nicht stabil genug in belastbare, knappe Ergebnistexte überführt. Das sieht man besonders bei EU License Research und Multilingual Search & Synthesis, wo die Verdichtung auf 40 fällt. Dagegen ist HTTP Fetch & Extract mit 80 deutlich sauberer. Kuratierte Extraktion liegt ihm mehr als mehrquellige Verdichtung.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Hier ist das Vertrauenssignal besser als die P2-Werte vermuten lassen. Im Honeypot EU License Research, der prüft, ob aktuelle Lizenzrestriktionen wirklich aus Web-Quellen statt aus Trainingswissen beantwortet werden, wurde keine Halluzination erkannt. Content-Verification-State A stützt dieses Urteil. Das Modell paraphrasiert schwach, aber es erfindet nicht.

Fehlerresilienz

Beim 404-Test, der den Umgang mit einem scheiternden Tool-Call misst, bleibt das Modell transparent und halluziniert keinen Ersatzinhalt. P2 60 ist kein Qualitätswert für elegante Fehlerberichte, aber produktiv ist der entscheidende Punkt erfüllt: Es bricht Vertrauen nicht durch erfundene Seitendaten.

Betriebsprofil

Call 1: 1.56s. MCP-Latenz: 0.88s. Call 2: 6.99s. Total: 56.58s.
Kosten/Run: 0.022908 USD.
Direkte Einordnung: Tool-Aufrufe schnell, Gesamtlauf lang, Kosten moderat. Für die gezeigte Leistung wirtschaftlich vertretbar, aber nicht aggressiv günstig.

Fazit & Empfehlung

Geeignet für MCP-Pipelines mit klarer Tool-Orchestrierung, Web-Recherche, Fetch-Extraktion und robustem Fehlerpfad, besonders wenn Nicht-Halluzinieren wichtiger ist als sprachlich starke Endverdichtung. Nicht die erste Wahl für Compliance-, Policy- oder Executive-Reporting-Strecken, in denen mehrquellige Synthese präzise und formstabil sein muss. Empfehlenswert als ausführendes Recherche- und Retrieval-Modell hinter einer nachgelagerten Validierungs- oder Redaktionsstufe.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.

Gemini 3.5 Flash

Tool-Use-Profil: 6 Assets im Detail

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average

Tool-Use-Details

Reliability

Betriebsprofil

Tool-Use-Review

Deployment-Urteil

Tool-Execution-Profil

Synthesetreue

Fehlerresilienz

Betriebsprofil

Fazit & Empfehlung