Kimi K2 Thinking

Kimi K2 Thinking ist das Reasoning-Modell von Moonshot AI, das schrittweises Denken mit Tool-Aufrufen kombiniert. Die MoE-Architektur vereint eine Billion Gesamtparameter mit 32 Milliarden aktiven Parametern pro Token, das Kontextfenster umfasst 256.000 Tokens. Das Modell ist auf komplexe agentische Aufgaben und lange Reasoning-Ketten ausgelegt, als Text-only-Variante verfügbar. Die chinesische Hersteller-Jurisdiktion erfordert bei Cloud-Nutzung eine separate Bewertung.

Moonshot AI Version k2-thinking-20251106 Kommerzielle Nutzung erlaubt MoE 1000 B (32 B aktiv) 256 K Context 06/2025 $0.6 / $2.5 per 1M

Open Weights
Frontier
OR
Text
Agentic Orchestrator
Interactive

Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

Name	P1	P2	Combined
EU License Research	80	40	56
HTTP Fetch & Extract	75	100	87.5
Tool Failure Handling (404)	80	80	80
Web Search & Tool Selection	100	80	91
URL Construction & Fetch	80	80	80
Multilingual Search & Synthesis	80	40	60

Name

Combined

EU License Research

HTTP Fetch & Extract

100

87.5

Tool Failure Handling (404)

Web Search & Tool Selection

100

URL Construction & Fetch

Multilingual Search & Synthesis

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

Tool Call Valid: Nein

Retry: Erforderlich

Halluzination: Nicht erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1: 4.57; First Request

MCP: 1.6; Protocol Latency

Synthesis: 20.05; Response Generation

Total: 157.28; Sum of All Phases

Token: 5545; Input + Output

Cost: $0.006; Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Deployment-Urteil

Bedingt deploy, weil die Tool-Ausführung verlässlich ist und keine Halluzination erkannt wurde, die Synthesetreue aber zu ungleich für belastbare Compliance- oder Recherchepipelines ausfällt.

Tool-Execution-Profil

Kimi K2 Thinking wählt Werkzeuge überwiegend intelligent statt rein schematisch. Beim Test Web Search & Tool Selection, der ohne expliziten Hinweis die Wahl zwischen Suche und direktem Abruf prüft, erkennt es den Bedarf für web_search sauber und erreicht volle Tool-Execution. Beim URL-Construction-Test, der die Ableitung einer Ziel-URL aus Modellwissen und den anschließenden fetch misst, bleibt es brauchbar, aber nicht deterministisch präzise. Das spricht für echte Werkzeugwahl, aber nicht für fehlerfreie Vorhersagbarkeit in starren Pipelines.

Die Calls waren valide und MCP-konform. Das ist der zentrale Produktionsindikator. Dass ein Retry erforderlich war, wirkt hier eher wie ein Ablauf- oder Formatproblem in einer längeren Thinking-Sequenz als wie ein grundlegendes Verständnisproblem. Für agentische Orchestrierung ist das tolerierbar, für eng getaktete Low-Latency-Pipelines weniger.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Uneinheitlich. HTTP Fetch & Extract zeigt, dass das Modell strukturierte Inhalte sehr gut in eine präzise Antwort überführen kann. Dagegen fallen EU License Research und Multilingual Search & Synthesis in der Verdichtung deutlich ab. Das Muster ist klar: Wenn die Quelle klar und eng geführt ist, arbeitet Kimi sauber. Wenn mehrere Quellen, Sprachwechsel oder regulatorische Einordnung zusammenkommen, sinkt die Zuverlässigkeit der Verdichtung.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Im Honeypot EU License Research, der prüfen soll, ob aktuelle Lizenzrestriktionen wirklich aus Web-Quellen kommen, halluziniert es nicht. Das ist der wichtigere Befund als der schwache P2-Wert. Der Content-Verification-State B2 und P2=40 zeigen aber, dass es die Quelle nicht mit genug Strenge in eine belastbare Schlussfassung überführt. Es bleibt also tendenziell im Tool-Ergebnis, verwertet es aber nicht immer präzise genug.

Fehlerresilienz

Beim 404-Test, der transparente Reaktion auf einen fehlschlagenden Tool-Call statt erfundenem Seiteninhalt prüft, verhält sich das Modell produktionsgerecht. Es halluziniert trotz Fehler keinen Ersatzinhalt. P2=80 ist hier ausreichend. Transparente Fehlerkommunikation ist für produktive Tool-Pipelines akzeptabel.

Betriebsprofil

Total 157.28s: langsam. MCP-Latenz 1.60s, aber ein zweiter Modell-Call mit 20.05s und lange Gesamtlaufzeit. Kosten pro Run 0.005985 USD: günstig bis moderat für Frontier-Niveau. Preis passt, Latenz ist der eigentliche operative Nachteil.

Fazit & Empfehlung

Geeignet für agentische Pipelines mit Tool-Auswahl, Web-Recherche und transparentem Fehlermanagement, besonders wenn Kosten wichtiger sind als Antwortzeit. Nicht die erste Wahl für Compliance, Lizenzprüfung, mehrsprachige Evidenzsynthese oder andere Pfade, in denen die Zusammenfassung selbst revisionsfähig sein muss. Deploy nur mit Source-Grounding, Antwortvalidierung und enger Ausgabeprüfung nach dem letzten Tool-Schritt.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.

Kimi K2 Thinking

Tool-Use-Profil: 6 Assets im Detail

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average

Tool-Use-Details

Reliability

Betriebsprofil

Tool-Use-Review

Deployment-Urteil

Tool-Execution-Profil

Synthesetreue

Fehlerresilienz

Betriebsprofil

Fazit & Empfehlung