Kimi K2 Thinking

Kimi K2 Thinking ist das Reasoning-Modell von Moonshot AI, das schrittweises Denken mit Tool-Aufrufen kombiniert. Die MoE-Architektur vereint eine Billion Gesamtparameter mit 32 Milliarden aktiven Parametern pro Token, das Kontextfenster umfasst 256.000 Tokens. Das Modell ist auf komplexe agentische Aufgaben und lange Reasoning-Ketten ausgelegt, als Text-only-Variante verfügbar. Die chinesische Hersteller-Jurisdiktion erfordert bei Cloud-Nutzung eine separate Bewertung.

Moonshot AI Version k2-thinking-20251106 Kommerzielle Nutzung erlaubt MoE 1000 B (32 B aktiv) 256 K Context 06/2025 $0.6 / $2.5 per 1M

  • Open Weights
  • Frontier
  • OR
  • Text
  • Agentic Orchestrator
  • Interactive

Tool-Use-Profil: 6 Assets im Detail

Vergleich der Asset-Performance (P1/P2/Combined) gegenüber dem Flotten-Durchschnitt

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average


Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

  • Tool Call Valid: Nein
  • Retry: Erforderlich
  • Halluzination: Nicht erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1
4.57
First Request
MCP
1.6
Protocol Latency
Synthesis
20.05
Response Generation
Total
157.28
Sum of All Phases
Token
5545
Input + Output
Cost
$0.006
Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Tool-Use-Review

Aktualisiert am · Agentic Orchestrator

Deployment-Urteil

Bedingt deploy, weil die Tool-Ausführung verlässlich ist und keine Halluzination erkannt wurde, die Synthesetreue aber zu ungleich für belastbare Compliance- oder Recherchepipelines ausfällt.

Tool-Execution-Profil

Kimi K2 Thinking wählt Werkzeuge überwiegend intelligent statt rein schematisch. Beim Test Web Search & Tool Selection, der ohne expliziten Hinweis die Wahl zwischen Suche und direktem Abruf prüft, erkennt es den Bedarf für web_search sauber und erreicht volle Tool-Execution. Beim URL-Construction-Test, der die Ableitung einer Ziel-URL aus Modellwissen und den anschließenden fetch misst, bleibt es brauchbar, aber nicht deterministisch präzise. Das spricht für echte Werkzeugwahl, aber nicht für fehlerfreie Vorhersagbarkeit in starren Pipelines.

Die Calls waren valide und MCP-konform. Das ist der zentrale Produktionsindikator. Dass ein Retry erforderlich war, wirkt hier eher wie ein Ablauf- oder Formatproblem in einer längeren Thinking-Sequenz als wie ein grundlegendes Verständnisproblem. Für agentische Orchestrierung ist das tolerierbar, für eng getaktete Low-Latency-Pipelines weniger.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Uneinheitlich. HTTP Fetch & Extract zeigt, dass das Modell strukturierte Inhalte sehr gut in eine präzise Antwort überführen kann. Dagegen fallen EU License Research und Multilingual Search & Synthesis in der Verdichtung deutlich ab. Das Muster ist klar: Wenn die Quelle klar und eng geführt ist, arbeitet Kimi sauber. Wenn mehrere Quellen, Sprachwechsel oder regulatorische Einordnung zusammenkommen, sinkt die Zuverlässigkeit der Verdichtung.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Im Honeypot EU License Research, der prüfen soll, ob aktuelle Lizenzrestriktionen wirklich aus Web-Quellen kommen, halluziniert es nicht. Das ist der wichtigere Befund als der schwache P2-Wert. Der Content-Verification-State B2 und P2=40 zeigen aber, dass es die Quelle nicht mit genug Strenge in eine belastbare Schlussfassung überführt. Es bleibt also tendenziell im Tool-Ergebnis, verwertet es aber nicht immer präzise genug.

Fehlerresilienz

Beim 404-Test, der transparente Reaktion auf einen fehlschlagenden Tool-Call statt erfundenem Seiteninhalt prüft, verhält sich das Modell produktionsgerecht. Es halluziniert trotz Fehler keinen Ersatzinhalt. P2=80 ist hier ausreichend. Transparente Fehlerkommunikation ist für produktive Tool-Pipelines akzeptabel.

Betriebsprofil

Total 157.28s: langsam. MCP-Latenz 1.60s, aber ein zweiter Modell-Call mit 20.05s und lange Gesamtlaufzeit. Kosten pro Run 0.005985 USD: günstig bis moderat für Frontier-Niveau. Preis passt, Latenz ist der eigentliche operative Nachteil.

Fazit & Empfehlung

Geeignet für agentische Pipelines mit Tool-Auswahl, Web-Recherche und transparentem Fehlermanagement, besonders wenn Kosten wichtiger sind als Antwortzeit. Nicht die erste Wahl für Compliance, Lizenzprüfung, mehrsprachige Evidenzsynthese oder andere Pfade, in denen die Zusammenfassung selbst revisionsfähig sein muss. Deploy nur mit Source-Grounding, Antwortvalidierung und enger Ausgabeprüfung nach dem letzten Tool-Schritt.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.