Kimi K2

Kimi K2

Kimi K2 ist das Flaggschiff-Modell von Moonshot AI mit Open-Weights-Lizenz und Fokus auf agentische Aufgaben, Coding und mehrstufiges Reasoning. Die MoE-Architektur aktiviert pro Token nur 32 Milliarden der insgesamt eine Billion Gesamtparameter, das Kontextfenster umfasst 128.000 Tokens. Als Text-only-Variante lokal oder über Cloud-Provider nutzbar, bei Cloud-Nutzung erfordert die chinesische Jurisdiktion eine separate Bewertung.

Moonshot AI Version k2-0711 Kommerzielle Nutzung erlaubt MoE 1000 B (32 B aktiv) 128 K Context 06/2025 $0.6 / $2.5 per 1M

Open Weights
Frontier
OR
Text
Agentic Orchestrator
Real-Time

Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

Name	P1	P2	Combined
EU License Research	100	60	76
HTTP Fetch & Extract	80	80	80
Tool Failure Handling (404)	80	80	80
Web Search & Tool Selection	100	35	70.8
URL Construction & Fetch	80	60	70
Multilingual Search & Synthesis	80	15	47.5

Name

Combined

EU License Research

100

HTTP Fetch & Extract

Tool Failure Handling (404)

Web Search & Tool Selection

100

70.8

URL Construction & Fetch

Multilingual Search & Synthesis

47.5

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

Tool Call Valid: Nein

Retry: Nicht erforderlich

Halluzination: Erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1: 2.93; First Request

MCP: 1.33; Protocol Latency

Synthesis: 11.42; Response Generation

Total: 94.08; Sum of All Phases

Token: 6141; Input + Output

Cost: $0.0063; Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Deployment-Urteil

Bedingt deploy, weil Kimi K2 valide Tool-Calls erzeugt und im Tool-Vollzug stark ist, aber die Synthesetreue mit Halluzinationsbefund das Vertrauen in produktive Antwortschichten begrenzt.

Tool-Execution-Profil

Kimi K2 kann einer MCP-gestützten Infrastruktur grundsätzlich übergeben werden. Die Tool-Calls sind valide, protokollkonform und ohne Retry zustande gekommen. Das spricht gegen ein reines Formatproblem und für ein stabiles Verständnis der Aufrufstruktur.

Entscheidend ist die Werkzeugwahl. Beim Test Web Search & Tool Selection, der ohne expliziten Hinweis die richtige Wahl zwischen Suche und Fetch erzwingt, wählt das Modell das passende Tool sicher. Das wirkt nicht wie starres Schema-Folgen. Es erkennt den Informationsbedarf und entscheidet situationsbezogen. Beim Test URL Construction & Fetch, der die Ziel-URL aus Eigenwissen ableiten und danach korrekt abrufen lässt, bleibt es brauchbar, aber weniger deterministisch. Das Muster ist klar: starke Tool-Intelligenz bei der Auswahl, etwas geringere Präzision bei der Ausführung, sobald eigene Vorannahmen in die URL-Bildung einfließen.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Nur eingeschränkt belastbar. Die P2-Leistung ist der klare Schwachpunkt. Solide in HTTP Fetch & Extract und Tool Failure Handling (404), aber deutlich schwächer in Web Search & Tool Selection und besonders in Multilingual Search & Synthesis, wo die Verdichtung über Sprachgrenzen sichtbar bricht. Für Pipelines, in denen das Modell Tool-Ausgaben nur kurz referenziert oder weiterreicht, ist das tolerierbar. Für Compliance, Research-Summaries oder kundennahe Ergebnisdarstellung ist es zu unsauber.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Im Honeypot EU License Research, der genau diesen Vertrauensbruch prüft, bleibt Kimi K2 auf dem Web-Ergebnis und halluziniert nicht. Das ist der wichtigere Befund. Gleichzeitig steht global ein Halluzinationssignal im Lauf. Das ist kein bloßer Qualitätsmangel, sondern ein Sicherheitsrisiko: Sobald ein Modell erfundene Fakten als scheinbare Tool-Ergebnisse ausgibt, beschädigt es die Verlässlichkeit der gesamten Pipeline.

Fehlerresilienz

Akzeptabel für Produktion. Im 404-Test, der transparenten Umgang mit fehlschlagenden Tool-Calls prüft, kommuniziert Kimi K2 den Fehler statt Seiteninhalt zu erfinden. Genau dieses Verhalten braucht man im Betrieb. Der Fehler wird sichtbar gemacht, nicht kaschiert.

Betriebsprofil

Call 1: 2.93s. MCP-Latenz: 1.33s. Call 2: 11.42s. Total: 94.08s.
Langsam im Gesamtrun.
Kosten pro Run: 0.006264. Günstig für die gebotene Tool-Kompetenz.

Fazit & Empfehlung

Geeignet für agentische Pipelines, in denen Tool-Auswahl, Ablaufsteuerung und robuste Fehlerbehandlung wichtiger sind als hochwertige Endverdichtung. Gut für Recherche-Orchestrierung, Vorverarbeitung, Coder-Agenten und interne Assistenzschichten mit nachgelagerter Verifikation. Nicht die erste Wahl für mehrsprachige Recherche, entscheidungsreife Zusammenfassungen oder jede Pipeline, in der die natürliche Sprache des Modells direkt als vertrauenswürdiges Endergebnis ausgeliefert wird.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.

Tool-Use-Profil: 6 Assets im Detail

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average

Tool-Use-Details

Reliability

Betriebsprofil

Tool-Use-Review

Deployment-Urteil

Tool-Execution-Profil

Synthesetreue

Fehlerresilienz

Betriebsprofil

Fazit & Empfehlung