Kimi K2.5

Kimi K2.5 ist Moonshot AIs Flaggschiff mit aktivem Chain-of-Thought-Reasoning, multimodalem Eingang für Text und Bild sowie Fokus auf Reasoning und agentische Aufgaben. Die MoE-Architektur aktiviert pro Token nur 32 Milliarden der insgesamt eine Billion Gesamtparameter, das Kontextfenster umfasst 128.000 Tokens. Als Open-Weights-Variante lokal oder über die Cloud verfügbar, mit chinesischer Jurisdiktion als Cloud-Risikofaktor.

Moonshot AI Version k2.5 Kommerzielle Nutzung erlaubt MoE 1000 B (32 B aktiv) 128 K Context 09/2025 $0.44 / $2 per 1M

  • Open Weights
  • Frontier
  • OR
  • Text
  • Vision
  • Agentic Orchestrator
  • Batch

Tool-Use-Profil: 6 Assets im Detail

Vergleich der Asset-Performance (P1/P2/Combined) gegenüber dem Flotten-Durchschnitt

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average


Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

  • Tool Call Valid: Nein
  • Retry: Nicht erforderlich
  • Halluzination: Erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1
7.29
First Request
MCP
1.02
Protocol Latency
Synthesis
32.03
Response Generation
Total
242.04
Sum of All Phases
Token
7191
Input + Output
Cost
$0.0068
Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Tool-Use-Review

Aktualisiert am · Agentic Orchestrator

Deployment-Urteil

Bedingt deploy, weil die Tool-Ausführung stark und protokolltreu ist, die Synthesetreue aber mit Halluzinationsbefund nicht stabil genug für hochkritische Faktenpipelines wirkt.

Tool-Execution-Profil

Kimi K2.5 arbeitet im MCP-Kontext handlungsfähig. Die Tool-Calls sind valide, Retry war nicht nötig, und der P1-Wert von 90 zeigt, dass das Modell die Infrastruktur praktisch bedienen kann. Besonders stark ist Web Search & Tool Selection: In dem Test, der ohne expliziten Hinweis zwischen Suche und direktem Abruf unterscheiden lässt, wählt es das passende Werkzeug sicher. Das spricht für echte Werkzeugwahl statt starrem Muster.

Weniger sauber ist URL Construction & Fetch. In dem Test, der die Ziel-URL aus Vorwissen ableiten und dann korrekt abrufen lässt, erreicht es nur 80. Das ist brauchbar, aber nicht deterministisch genug für Pipelines, in denen URL-Bildung ohne Vorvalidierung zuverlässig sitzen muss. Das Profil ist damit klar: gute Orchestrierung, solide Protokolldisziplin, aber keine Präzision, auf die man bei abgeleiteten Endpunkten blind vertrauen sollte.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Nur eingeschränkt. P2 liegt bei 65.83. Das reicht für operative Zusammenfassungen, aber nicht für belastbare Extraktion. Der schwächste Befund kommt aus HTTP Fetch & Extract: In dem Test, der präzise Fakten wie Namen, Jahreszahlen und Versionen aus echtem Seiteninhalt zieht, fällt die Verdichtung deutlich ab. Kimi K2.5 kann also Ergebnisse beschaffen, verliert aber bei der inhaltlichen Verdichtung Genauigkeit.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Im Honeypot EU License Research bleibt es innerhalb des abgerufenen Materials. Der Test prüft, ob aktuelle Lizenzrestriktionen aus Web-Quellen statt aus Trainingswissen beantwortet werden. Mit Content-Verification-State A und ohne Halluzination ist das ein gutes Vertrauenssignal. Gleichzeitig bleibt der globale Halluzinationsbefund ein Sicherheitsrisiko: Sobald ein Modell in einer Tool-Pipeline erfundene Fakten als Tool-Ergebnis ausgibt, wird die Verlässlichkeit der gesamten Infrastruktur fraglich.

Fehlerresilienz

Akzeptabel für Produktion. Im 404-Test, der transparentes Verhalten bei fehlschlagendem Tool-Aufruf prüft, kommuniziert Kimi K2.5 den Fehler sauber und erfindet keinen Ersatzinhalt. Das ist der Mindeststandard für robuste Agentenpfade, und den erfüllt es.

Betriebsprofil

Langsam: 7.29s erster Call, 32.03s zweiter Call, 242.04s total.
MCP-Latenz 1.02s. Der Hauptanteil liegt beim Modell, nicht beim Tooling.
Günstig: 0.006807 USD pro Run. Preislich attraktiv, zeitlich teuer.

Fazit & Empfehlung

Geeignet für agentische Recherche- und Orchestrierungs-Pipelines mit Human-in-the-Loop, Tool-First-Architekturen und sauberer Nachvalidierung der extrahierten Fakten. Nicht geeignet für Compliance-, Vertrags-, Regulatorik- oder andere High-Trust-Pipelines, in denen die textuelle Verdichtung selbst als verlässlicher Endpunkt gelten muss. Wenn Sie Kimi K2.5 einsetzen, dann als Tool-Koordinator mit nachgelagerter Verifikation, nicht als letzte Instanz für faktenkritische Synthese.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.