Gemini 3.5 Flash

Gemini 3.5 Flash ist Googles schnellste Frontier-Klasse und liefert nahezu Pro-Level-Leistung bei Flash-Preisen. Mit Dynamic Thinking in vier konfigurierbaren Stufen, einem Kontextfenster von einer Million Tokens und vollständiger Multimodalität für Text, Bilder, Audio, Video und PDF eignet sich das Modell für agentische Workflows, Coding und Workloads mit hohem Durchsatz.

Google Version 3.5-flash Kommerzielle Nutzung erlaubt MoE 1000 K Context 01/2025 $1.5 / $9 per 1M

  • Proprietär
  • Server
  • API
  • Text
  • Vision
  • Audio
  • Video
  • Agentic Orchestrator
  • Real-Time

Sovereign Risk: MEDIUM Google DeepMind ist ein US-amerikanisches Unternehmen und unterliegt dem CLOUD Act; die Modellgewichte sind nicht öffentlich zugänglich.

Tool-Use-Profil: 6 Assets im Detail

Vergleich der Asset-Performance (P1/P2/Combined) gegenüber dem Flotten-Durchschnitt

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average


Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

  • Tool Call Valid: Nein
  • Retry: Nicht erforderlich
  • Halluzination: Nicht erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1
1.59
First Request
MCP
0.91
Protocol Latency
Synthesis
6.13
Response Generation
Total
51.79
Sum of All Phases
Token
6287
Input + Output
Cost
$0
Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Tool-Use-Review

Aktualisiert am · Agentic Orchestrator

Deployment-Urteil

Bedingt deploy, weil Gemini 3.5 Flash valide Tool-Calls liefert, keine Halluzination im Lauf zeigte und mit solidem Gesamtbild zuverlässig in die Infrastruktur greift, die Synthesequalität aber für entscheidungsrelevante Outputs zu uneinheitlich bleibt.

Tool-Execution-Profil

Die Tool-Ausführung ist die klare Stärke dieses Modells. Mit P1 90 wählt es Werkzeuge meist richtig, erzeugt valide Calls und bleibt MCP-konform. Entscheidend ist, dass es beim Web-Search-and-Tool-Selection-Test, der ohne expliziten Hinweis die Wahl zwischen Suche und direktem Fetch prüft, sauber auf web_search schaltet. Das spricht gegen reines Schema-Folgen und für echte Werkzeugwahl anhand der Aufgabe.

Beim URL-Construction-Test, der prüft, ob das Modell eine Ziel-URL aus eigenem Wissen ableiten und dann korrekt abrufen kann, fällt es auf P1 80 zurück. Das ist brauchbar, aber nicht deterministisch genug für Pipelines, in denen URL-Bildung präzise sitzen muss. Retry war nicht erforderlich. Das Problem liegt also nicht im Protokollformat, sondern in der inhaltlichen Präzision einzelner Ausführungsschritte. Als vision-language MoE-Modell sollte man den Text-only-Befund zudem nicht überdehnen. Er zeigt nur den sprachlichen Tool-Use-Teil, nicht die multimodale Hauptstärke.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Nur eingeschränkt überzeugend. P2 56.67 zeigt, dass Gemini 3.5 Flash gefundene Inhalte oft korrekt aufnimmt, aber nicht stabil genug in belastbare, knappe Ergebnistexte überführt. Das sieht man besonders bei EU License Research und Multilingual Search & Synthesis, wo die Verdichtung auf 40 fällt. Dagegen ist HTTP Fetch & Extract mit 80 deutlich sauberer. Kuratierte Extraktion liegt ihm mehr als mehrquellige Verdichtung.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Hier ist das Vertrauenssignal besser als die P2-Werte vermuten lassen. Im Honeypot EU License Research, der prüft, ob aktuelle Lizenzrestriktionen wirklich aus Web-Quellen statt aus Trainingswissen beantwortet werden, wurde keine Halluzination erkannt. Content-Verification-State A stützt dieses Urteil. Das Modell paraphrasiert schwach, aber es erfindet nicht.

Fehlerresilienz

Beim 404-Test, der den Umgang mit einem scheiternden Tool-Call misst, bleibt das Modell transparent und halluziniert keinen Ersatzinhalt. P2 60 ist kein Qualitätswert für elegante Fehlerberichte, aber produktiv ist der entscheidende Punkt erfüllt: Es bricht Vertrauen nicht durch erfundene Seitendaten.

Betriebsprofil

Call 1: 1.56s. MCP-Latenz: 0.88s. Call 2: 6.99s. Total: 56.58s.
Kosten/Run: 0.022908 USD.
Direkte Einordnung: Tool-Aufrufe schnell, Gesamtlauf lang, Kosten moderat. Für die gezeigte Leistung wirtschaftlich vertretbar, aber nicht aggressiv günstig.

Fazit & Empfehlung

Geeignet für MCP-Pipelines mit klarer Tool-Orchestrierung, Web-Recherche, Fetch-Extraktion und robustem Fehlerpfad, besonders wenn Nicht-Halluzinieren wichtiger ist als sprachlich starke Endverdichtung. Nicht die erste Wahl für Compliance-, Policy- oder Executive-Reporting-Strecken, in denen mehrquellige Synthese präzise und formstabil sein muss. Empfehlenswert als ausführendes Recherche- und Retrieval-Modell hinter einer nachgelagerten Validierungs- oder Redaktionsstufe.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.