Gemini 2.5 Flash

Gemini 2.5 Flash ist Googles schnelles Multimodal-Modell für kosteneffiziente Inferenz über Text, Bild und Code hinweg. Es unterstützt sehr lange Kontexte, optionales Thinking und ist auf niedrigere Latenz bei hohen Volumina ausgelegt. Das Modell ist nur über die Google-API verfügbar.

Google Version 2.5-flash Kommerzielle Nutzung erlaubt Dense 1000 K Context 01/2025 $0.3 / $2.5 per 1M

Proprietär
Server
API
General
Thinking-Optional
Real-Time

Sovereign Risk: MEDIUM Google DeepMind ist ein US-amerikanisches Unternehmen und unterliegt dem CLOUD Act, die Modellgewichte sind nicht öffentlich zugänglich.

Schlüsselmetriken

Score · Latenz · Kosten · Qualität

Total Score Silver: 68.16

Routine: 40.89
Reasoning: 27.26

Rank #70

LLM Judge Avg: 3.55; 100% Coverage

Avg Task Duration: 18.79; Real-Time

Token Rate: 65.48; Output Rate

P95 Latency: 52.99; Top 5 %

Total Tokens: 62.6K; Output Volume

Cost per 1K: $0.0025; USD / 1K Requests

Benchmark Cost: $0.16; Total · 62.6K tok

Benchmark-Module

7 Module · gewichtet · vs. Modellmedian & Spitzenreiter

Gemini 2.5 Flash Bestes Modell Ø Alle Modelle

Token-Effizienz & Latenz

Verbrauch pro Modul vs. Modellmedian

Gemini 2.5 Flash

Schlüsselmetriken

Benchmark-Module

Token-Effizienz & Latenz

Token-Verbrauch pro Modul

Performance-Profil