Gemini 2.5 Pro

Googles Frontier-Reasoning-Modell mit Sparse-MoE-Architektur und konfigurierbarem Extended Thinking. Gemini 2.5 Pro arbeitet mit einem Kontextfenster von einer Million Tokens, verarbeitet nativ Text, Bilder, Audio und Video und ist exklusiv über die Google Cloud API zugänglich. Der Fokus liegt auf komplexem Reasoning und anspruchsvollen Coding-Aufgaben.

Google Version 2.5-pro Kommerzielle Nutzung erlaubt MoE 1000 K Context 01/2025 $1.25 / $10 per 1M

  • Proprietär
  • Frontier
  • API
  • Text
  • Vision
  • Audio
  • Video
  • Agentic Orchestrator
  • Interactive

Sovereign Risk: MEDIUM Google DeepMind ist ein US-amerikanisches Unternehmen und unterliegt dem CLOUD Act; die Modellgewichte sind nicht öffentlich zugänglich.

Tool-Use-Profil: 6 Assets im Detail

Vergleich der Asset-Performance (P1/P2/Combined) gegenüber dem Flotten-Durchschnitt

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average


Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

  • Tool Call Valid: Ja
  • Retry: Nicht erforderlich
  • Halluzination: Nicht erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1
8.11
First Request
MCP
0.93
Protocol Latency
Synthesis
11.54
Response Generation
Total
123.44
Sum of All Phases
Token
7504
Input + Output
Cost
$0.0238
Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Tool-Use-Review

· Agentic Orchestrator

Deployment-Urteil

Bedingt deploy, weil die Tool-Ausführung verlässlich ist, aber die Synthesetreue für produktionsnahe Wissens- und Compliance-Pipelines zu schwankend bleibt. Der kombinierte Score von 74 bestätigt Nutzbarkeit, nicht blindes Vertrauen.

Tool-Execution-Profil

Gemini 2.5 Pro verhält sich als Tool-Operator stark. P1 liegt bei 90, der Tool-Call war valide und ein Retry war nicht nötig. Das spricht für saubere MCP-konforme Aufrufe und geringe Integrationsreibung.

Bei Web Search & Tool Selection, also der Frage, ob ohne expliziten Hinweis eher Suche als direkter Fetch nötig ist, erkennt das Modell den richtigen Werkzeugtyp sicher und erreicht P1 100. Das wirkt nicht wie starres Schema-Fahren, sondern wie echte Situationswahl. Beim URL-Construction-Test, der prüft, ob das Modell die Ziel-URL aus eigenem Wissen korrekt ableitet und dann fetcht, bleibt es mit P1 80 brauchbar, aber nicht deterministisch genug für fragile Endpunkte. Für orchestrierte Pipelines mit Suchschritt vor Abruf ist das Profil klar stärker als für direkte URL-Konstruktion aus implizitem Wissen.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Nur ordentlich. P2 liegt insgesamt bei 60. In HTTP Fetch & Extract und Multilingual Search & Synthesis, also bei strukturierter Extraktion und sprachübergreifender Verdichtung, arbeitet das Modell solide. Der Ausreißer ist EU License Research mit P2 20. Das ist kein Tool-Use-Problem, sondern ein Verdichtungsproblem unter Aktualitätsdruck: Es ruft Quellen ab, verdichtet sie aber nicht belastbar genug für sensible Sachverhalte.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Im Honeypot EU License Research, der genau das prüft, wurde keine Halluzination erkannt und der Content-Verification-State steht auf A. Das Vertrauenssignal ist deshalb gemischt, aber wichtig: Das Modell erfindet nichts, doch es transformiert abgerufene Evidenz nicht immer in eine präzise, entscheidungstaugliche Antwort.

Fehlerresilienz

Im Tool Failure Handling (404), also beim Test auf transparenten Umgang mit fehlgeschlagenem Abruf, reagiert Gemini 2.5 Pro produktionsgerecht. P2 80 bei ausbleibender Halluzination zeigt, dass es Fehler offen kommuniziert statt Seiteninhalt zu erfinden. Das ist für Tool-Pipelines akzeptabel und operativ wichtiger als stilistische Antwortqualität.

Betriebsprofil

Total 123.44s pro Run. Einzelaufrufe 8.11s und 11.54s, MCP-Latenz 0.93s. Langsam für interaktive Workflows. Kosten 0.023781 pro Run. Für Frontier-Leistung nicht teuer, aber angesichts der nur mittleren Synthesetreue kein Effizienzvorteil.

Fazit & Empfehlung

Geeignet für MCP-gestützte Recherche-, Routing- und Orchestrierungs-Pipelines, in denen das Modell primär Tools auswählt, Aufrufe formuliert und Ergebnisse vorsortiert. Nicht die erste Wahl für Compliance, Policy, Lizenz- oder andere Entscheidungen, bei denen die letzte Verdichtungsstufe exakt und quellentreu sein muss. Deployen, wenn ein nachgelagerter Verifikations- oder Review-Schritt die finale Antwort absichert.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.