Kimi K2

Kimi K2 ist das Flaggschiff-Modell von Moonshot AI mit Open-Weights-Lizenz und Fokus auf agentische Aufgaben, Coding und mehrstufiges Reasoning. Die MoE-Architektur aktiviert pro Token nur 32 Milliarden der insgesamt eine Billion Gesamtparameter, das Kontextfenster umfasst 128.000 Tokens. Als Text-only-Variante lokal oder über Cloud-Provider nutzbar, bei Cloud-Nutzung erfordert die chinesische Jurisdiktion eine separate Bewertung.

Moonshot AI Version k2-0711 Kommerzielle Nutzung erlaubt MoE 1000 B (32 B aktiv) 128 K Context 06/2025 $0.6 / $2.5 per 1M

  • Open Weights
  • Frontier
  • OR
  • Text
  • Agentic Orchestrator
  • Real-Time

Tool-Use-Profil: 6 Assets im Detail

Vergleich der Asset-Performance (P1/P2/Combined) gegenüber dem Flotten-Durchschnitt

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average


Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

  • Tool Call Valid: Nein
  • Retry: Nicht erforderlich
  • Halluzination: Erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1
2.93
First Request
MCP
1.33
Protocol Latency
Synthesis
11.42
Response Generation
Total
94.08
Sum of All Phases
Token
6141
Input + Output
Cost
$0.0063
Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Tool-Use-Review

Aktualisiert am · Agentic Orchestrator

Deployment-Urteil

Bedingt deploy, weil Kimi K2 valide Tool-Calls erzeugt und im Tool-Vollzug stark ist, aber die Synthesetreue mit Halluzinationsbefund das Vertrauen in produktive Antwortschichten begrenzt.

Tool-Execution-Profil

Kimi K2 kann einer MCP-gestützten Infrastruktur grundsätzlich übergeben werden. Die Tool-Calls sind valide, protokollkonform und ohne Retry zustande gekommen. Das spricht gegen ein reines Formatproblem und für ein stabiles Verständnis der Aufrufstruktur.

Entscheidend ist die Werkzeugwahl. Beim Test Web Search & Tool Selection, der ohne expliziten Hinweis die richtige Wahl zwischen Suche und Fetch erzwingt, wählt das Modell das passende Tool sicher. Das wirkt nicht wie starres Schema-Folgen. Es erkennt den Informationsbedarf und entscheidet situationsbezogen. Beim Test URL Construction & Fetch, der die Ziel-URL aus Eigenwissen ableiten und danach korrekt abrufen lässt, bleibt es brauchbar, aber weniger deterministisch. Das Muster ist klar: starke Tool-Intelligenz bei der Auswahl, etwas geringere Präzision bei der Ausführung, sobald eigene Vorannahmen in die URL-Bildung einfließen.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Nur eingeschränkt belastbar. Die P2-Leistung ist der klare Schwachpunkt. Solide in HTTP Fetch & Extract und Tool Failure Handling (404), aber deutlich schwächer in Web Search & Tool Selection und besonders in Multilingual Search & Synthesis, wo die Verdichtung über Sprachgrenzen sichtbar bricht. Für Pipelines, in denen das Modell Tool-Ausgaben nur kurz referenziert oder weiterreicht, ist das tolerierbar. Für Compliance, Research-Summaries oder kundennahe Ergebnisdarstellung ist es zu unsauber.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Im Honeypot EU License Research, der genau diesen Vertrauensbruch prüft, bleibt Kimi K2 auf dem Web-Ergebnis und halluziniert nicht. Das ist der wichtigere Befund. Gleichzeitig steht global ein Halluzinationssignal im Lauf. Das ist kein bloßer Qualitätsmangel, sondern ein Sicherheitsrisiko: Sobald ein Modell erfundene Fakten als scheinbare Tool-Ergebnisse ausgibt, beschädigt es die Verlässlichkeit der gesamten Pipeline.

Fehlerresilienz

Akzeptabel für Produktion. Im 404-Test, der transparenten Umgang mit fehlschlagenden Tool-Calls prüft, kommuniziert Kimi K2 den Fehler statt Seiteninhalt zu erfinden. Genau dieses Verhalten braucht man im Betrieb. Der Fehler wird sichtbar gemacht, nicht kaschiert.

Betriebsprofil

Call 1: 2.93s. MCP-Latenz: 1.33s. Call 2: 11.42s. Total: 94.08s.
Langsam im Gesamtrun.
Kosten pro Run: 0.006264. Günstig für die gebotene Tool-Kompetenz.

Fazit & Empfehlung

Geeignet für agentische Pipelines, in denen Tool-Auswahl, Ablaufsteuerung und robuste Fehlerbehandlung wichtiger sind als hochwertige Endverdichtung. Gut für Recherche-Orchestrierung, Vorverarbeitung, Coder-Agenten und interne Assistenzschichten mit nachgelagerter Verifikation. Nicht die erste Wahl für mehrsprachige Recherche, entscheidungsreife Zusammenfassungen oder jede Pipeline, in der die natürliche Sprache des Modells direkt als vertrauenswürdiges Endergebnis ausgeliefert wird.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.