Gemini 2.5 Flash

Gemini 2.5 Flash ist Googles schnelles Multimodal-Modell für kosteneffiziente Inferenz über Text, Bild und Code hinweg. Es unterstützt sehr lange Kontexte, optionales Thinking und ist auf niedrigere Latenz bei hohen Volumina ausgelegt. Das Modell ist nur über die Google-API verfügbar.

Google Version 2.5-flash Kommerzielle Nutzung erlaubt Dense 1000 K Context 01/2025 $0.3 / $2.5 per 1M

  • Proprietär
  • Server
  • API
  • General
  • Thinking-Optional
  • Real-Time

Sovereign Risk: MEDIUM Google DeepMind ist ein US-amerikanisches Unternehmen und unterliegt dem CLOUD Act, die Modellgewichte sind nicht öffentlich zugänglich.

Schlüsselmetriken

Score · Latenz · Kosten · Qualität

Total Score Silver
68.16
Routine
40.89
Reasoning
27.26

Rank #70

LLM Judge Avg
3.55
100% Coverage
Avg Task Duration
18.79
Real-Time
Token Rate
65.48
Output Rate
P95 Latency
52.99
Top 5 %
Total Tokens
62.6K
Output Volume
Cost per 1K
$0.0025
USD / 1K Requests
Benchmark Cost
$0.16
Total · 62.6K tok

Benchmark-Module

7 Module · gewichtet · vs. Modellmedian & Spitzenreiter

Gemini 2.5 Flash Bestes Modell Ø Alle Modelle
Code Quality 53.6
CLI Benchmark 78.36
Logical Reasoning 77.7
UX Writing 57.82
Documentation 59.79
Content Transform. 77.09
Cultural Intelligence 77.84
Benchmark Cost $0.16

Token-Effizienz & Latenz

Verbrauch pro Modul vs. Modellmedian

Token-Verbrauch pro Modul

Performance-Profil