Kimi K2.6

Kimi K2.6 ist Moonshot AIs multimodales Modell für agentische Aufgaben, Coding und toolgestützte Workflows mit nativem Eingang für Text, Bild und Video. Die MoE-Architektur aktiviert pro Token nur 32 Milliarden der insgesamt eine Billion Gesamtparameter, das Kontextfenster umfasst 256.000 Tokens. Als Open-Weights-Modell lokal oder über Cloud-API verfügbar, mit chinesischer Jurisdiktion als wesentlichem Cloud-Risikofaktor.

Moonshot AI Version k2.6 Kommerzielle Nutzung erlaubt MoE 1000 B (32 B aktiv) 256 K Context 12/2025 $0.74 / $3.49 per 1M

  • Open Weights
  • Frontier
  • OR
  • Text
  • Vision
  • Video
  • Agentic Orchestrator
  • Long Context
  • Batch

Tool-Use-Profil: 6 Assets im Detail

Vergleich der Asset-Performance (P1/P2/Combined) gegenüber dem Flotten-Durchschnitt

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average


Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

  • Tool Call Valid: Nein
  • Retry: Nicht erforderlich
  • Halluzination: Nicht erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1
9.77
First Request
MCP
1.54
Protocol Latency
Synthesis
26.39
Response Generation
Total
226.23
Sum of All Phases
Token
5386
Input + Output
Cost
$0.0089
Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Tool-Use-Review

Aktualisiert am · Agentic Orchestrator · Long Context

Deployment-Urteil

Bedingt deploy, weil Kimi K2.6 Tool-Aufrufe valide und halluzinationsfrei ausführt, die Synthesequalität mit Combined 74.50 aber nicht stabil genug für hochkritische Ausgabestrecken ist.

Tool-Execution-Profil

Das Modell arbeitet auf der Ausführungsseite belastbar. Tool-Call valide, kein Retry erforderlich, keine Protokollauffälligkeit. Das spricht für saubere MCP-Anbindung im produktiven Ablauf.

Bei Web Search & Tool Selection, also dem Test ob ohne Hinweis das passende Recherche-Tool gewählt wird, erreicht es P1 80. Beim URL-Construction-Test, der die eigenständige Ableitung einer Ziel-URL und den anschließenden Fetch prüft, liegt es ebenfalls bei P1 80. Das zeigt keine tiefe Werkzeugintelligenz, aber auch kein starres Fehlmuster. Kimi K2.6 erkennt den grundsätzlichen Unterschied zwischen Suchschritt und Direktabruf und setzt beide Wege brauchbar um. Für deterministische Pipelines bleibt jedoch ein gewisser Aufsichtsbedarf, weil die Auswahl korrekt genug, aber nicht präzise genug für blindes Durchreichen wirkt.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Nur ordentlich. P2 63.33 ist der klare Engpass dieses Modells. Über die Assets hinweg bleibt das Muster konstant: Die Beschaffung gelingt, die Verdichtung verliert jedoch Präzision, Nuancen oder Priorisierung. Für einfache Zusammenfassungen reicht das. Für Compliance, Policy-Exzerpte oder entscheidungsrelevante Extraktion ist Nachkontrolle nötig.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Hier ist das Signal gut. Beim EU License Research, einem Honeypot-Test auf aktuelle Lizenzrestriktionen aus Web-Quellen, blieb das Modell im abgerufenen Material. Content-Verification-State A und keine erkannte Halluzination sind der eigentliche Vertrauensanker dieses Laufs. Es antwortet also nicht aus implizitem Vorwissen, wenn frische Quellen erforderlich sind.

Fehlerresilienz

Beim Tool Failure Handling mit 404, also dem Test auf transparenten Umgang mit gescheiterten Abrufen, reagiert Kimi K2.6 produktionsgerecht. P2 80 bei gleichzeitig keiner Halluzination trotz 404 ist ein gutes Signal. Das Modell kommuniziert den Fehlerzustand, statt fehlenden Seiteninhalt zu erfinden. Für reale Tool-Pipelines ist das akzeptabel.

Betriebsprofil

Call 1: 9.77s. Call 2: 26.39s. MCP-Latenz: 1.54s. Total: 226.23s. Insgesamt langsam. Kosten pro Run: 0.008944 USD. Günstig bis moderat im Verhältnis zur gezeigten Leistung.

Fazit & Empfehlung

Geeignet für agentische Recherche- und Orchestrierungs-Pipelines, in denen das Modell Tools sicher ansteuert, Fehler transparent meldet und ein nachgelagerter Validator die Verdichtung prüft. Nicht die richtige Wahl für Pipelines, in denen die erste textuelle Synthese bereits entscheidungsreif sein muss. Wenn Sie Kimi K2.6 einsetzen, dann als Tool-Operator mit kontrollierter Output-Stufe, nicht als unbeaufsichtigten Endautor.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.