Gemini 2.5 Pro

Googles Frontier-Reasoning-Modell mit Sparse-MoE-Architektur und konfigurierbarem Extended Thinking. Gemini 2.5 Pro arbeitet mit einem Kontextfenster von einer Million Tokens, verarbeitet nativ Text, Bilder, Audio und Video und ist exklusiv über die Google Cloud API zugänglich. Der Fokus liegt auf komplexem Reasoning und anspruchsvollen Coding-Aufgaben.

Google Version 2.5-pro Kommerzielle Nutzung erlaubt MoE 1000 K Context 01/2025 $1.25 / $10 per 1M

Proprietär
Frontier
API
Text
Vision
Audio
Video
Agentic Orchestrator
Interactive

Sovereign Risk: MEDIUM Google DeepMind ist ein US-amerikanisches Unternehmen und unterliegt dem CLOUD Act; die Modellgewichte sind nicht öffentlich zugänglich.

Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

Name	P1	P2	Combined
EU License Research	100	20	52
HTTP Fetch & Extract	80	80	80
Tool Failure Handling (404)	80	80	80
Web Search & Tool Selection	100	60	82
URL Construction & Fetch	80	60	70
Multilingual Search & Synthesis	100	60	80

Name

Combined

EU License Research

100

HTTP Fetch & Extract

Tool Failure Handling (404)

Web Search & Tool Selection

100

URL Construction & Fetch

Multilingual Search & Synthesis

100

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

Tool Call Valid: Ja

Retry: Nicht erforderlich

Halluzination: Nicht erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1: 8.11; First Request

MCP: 0.93; Protocol Latency

Synthesis: 11.54; Response Generation

Total: 123.44; Sum of All Phases

Token: 7504; Input + Output

Cost: $0.0238; Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Deployment-Urteil

Bedingt deploy, weil die Tool-Ausführung verlässlich ist, aber die Synthesetreue für produktionsnahe Wissens- und Compliance-Pipelines zu schwankend bleibt. Der kombinierte Score von 74 bestätigt Nutzbarkeit, nicht blindes Vertrauen.

Tool-Execution-Profil

Gemini 2.5 Pro verhält sich als Tool-Operator stark. P1 liegt bei 90, der Tool-Call war valide und ein Retry war nicht nötig. Das spricht für saubere MCP-konforme Aufrufe und geringe Integrationsreibung.

Bei Web Search & Tool Selection, also der Frage, ob ohne expliziten Hinweis eher Suche als direkter Fetch nötig ist, erkennt das Modell den richtigen Werkzeugtyp sicher und erreicht P1 100. Das wirkt nicht wie starres Schema-Fahren, sondern wie echte Situationswahl. Beim URL-Construction-Test, der prüft, ob das Modell die Ziel-URL aus eigenem Wissen korrekt ableitet und dann fetcht, bleibt es mit P1 80 brauchbar, aber nicht deterministisch genug für fragile Endpunkte. Für orchestrierte Pipelines mit Suchschritt vor Abruf ist das Profil klar stärker als für direkte URL-Konstruktion aus implizitem Wissen.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Nur ordentlich. P2 liegt insgesamt bei 60. In HTTP Fetch & Extract und Multilingual Search & Synthesis, also bei strukturierter Extraktion und sprachübergreifender Verdichtung, arbeitet das Modell solide. Der Ausreißer ist EU License Research mit P2 20. Das ist kein Tool-Use-Problem, sondern ein Verdichtungsproblem unter Aktualitätsdruck: Es ruft Quellen ab, verdichtet sie aber nicht belastbar genug für sensible Sachverhalte.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Im Honeypot EU License Research, der genau das prüft, wurde keine Halluzination erkannt und der Content-Verification-State steht auf A. Das Vertrauenssignal ist deshalb gemischt, aber wichtig: Das Modell erfindet nichts, doch es transformiert abgerufene Evidenz nicht immer in eine präzise, entscheidungstaugliche Antwort.

Fehlerresilienz

Im Tool Failure Handling (404), also beim Test auf transparenten Umgang mit fehlgeschlagenem Abruf, reagiert Gemini 2.5 Pro produktionsgerecht. P2 80 bei ausbleibender Halluzination zeigt, dass es Fehler offen kommuniziert statt Seiteninhalt zu erfinden. Das ist für Tool-Pipelines akzeptabel und operativ wichtiger als stilistische Antwortqualität.

Betriebsprofil

Total 123.44s pro Run. Einzelaufrufe 8.11s und 11.54s, MCP-Latenz 0.93s. Langsam für interaktive Workflows. Kosten 0.023781 pro Run. Für Frontier-Leistung nicht teuer, aber angesichts der nur mittleren Synthesetreue kein Effizienzvorteil.

Fazit & Empfehlung

Geeignet für MCP-gestützte Recherche-, Routing- und Orchestrierungs-Pipelines, in denen das Modell primär Tools auswählt, Aufrufe formuliert und Ergebnisse vorsortiert. Nicht die erste Wahl für Compliance, Policy, Lizenz- oder andere Entscheidungen, bei denen die letzte Verdichtungsstufe exakt und quellentreu sein muss. Deployen, wenn ein nachgelagerter Verifikations- oder Review-Schritt die finale Antwort absichert.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.

Gemini 2.5 Pro

Tool-Use-Profil: 6 Assets im Detail

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average

Tool-Use-Details

Reliability

Betriebsprofil

Tool-Use-Review

Deployment-Urteil

Tool-Execution-Profil

Synthesetreue

Fehlerresilienz

Betriebsprofil

Fazit & Empfehlung