Kimi K2.6

Kimi K2.6

Kimi K2.6 ist Moonshot AIs multimodales Modell für agentische Aufgaben, Coding und toolgestützte Workflows mit nativem Eingang für Text, Bild und Video. Die MoE-Architektur aktiviert pro Token nur 32 Milliarden der insgesamt eine Billion Gesamtparameter, das Kontextfenster umfasst 256.000 Tokens. Als Open-Weights-Modell lokal oder über Cloud-API verfügbar, mit chinesischer Jurisdiktion als wesentlichem Cloud-Risikofaktor.

Moonshot AI Version k2.6 Kommerzielle Nutzung erlaubt MoE 1000 B (32 B aktiv) 256 K Context 12/2025 $0.74 / $3.49 per 1M

Open Weights
Frontier
OR
Text
Vision
Video
Agentic Orchestrator
Long Context
Batch

Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

Name	P1	P2	Combined
EU License Research	100	60	76
HTTP Fetch & Extract	80	60	70
Tool Failure Handling (404)	80	80	80
Web Search & Tool Selection	80	60	71
URL Construction & Fetch	80	60	70
Multilingual Search & Synthesis	100	60	80

Name

Combined

EU License Research

100

HTTP Fetch & Extract

Tool Failure Handling (404)

Web Search & Tool Selection

URL Construction & Fetch

Multilingual Search & Synthesis

100

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

Tool Call Valid: Nein

Retry: Nicht erforderlich

Halluzination: Nicht erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1: 9.77; First Request

MCP: 1.54; Protocol Latency

Synthesis: 26.39; Response Generation

Total: 226.23; Sum of All Phases

Token: 5386; Input + Output

Cost: $0.0089; Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Deployment-Urteil

Bedingt deploy, weil Kimi K2.6 Tool-Aufrufe valide und halluzinationsfrei ausführt, die Synthesequalität mit Combined 74.50 aber nicht stabil genug für hochkritische Ausgabestrecken ist.

Tool-Execution-Profil

Das Modell arbeitet auf der Ausführungsseite belastbar. Tool-Call valide, kein Retry erforderlich, keine Protokollauffälligkeit. Das spricht für saubere MCP-Anbindung im produktiven Ablauf.

Bei Web Search & Tool Selection, also dem Test ob ohne Hinweis das passende Recherche-Tool gewählt wird, erreicht es P1 80. Beim URL-Construction-Test, der die eigenständige Ableitung einer Ziel-URL und den anschließenden Fetch prüft, liegt es ebenfalls bei P1 80. Das zeigt keine tiefe Werkzeugintelligenz, aber auch kein starres Fehlmuster. Kimi K2.6 erkennt den grundsätzlichen Unterschied zwischen Suchschritt und Direktabruf und setzt beide Wege brauchbar um. Für deterministische Pipelines bleibt jedoch ein gewisser Aufsichtsbedarf, weil die Auswahl korrekt genug, aber nicht präzise genug für blindes Durchreichen wirkt.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Nur ordentlich. P2 63.33 ist der klare Engpass dieses Modells. Über die Assets hinweg bleibt das Muster konstant: Die Beschaffung gelingt, die Verdichtung verliert jedoch Präzision, Nuancen oder Priorisierung. Für einfache Zusammenfassungen reicht das. Für Compliance, Policy-Exzerpte oder entscheidungsrelevante Extraktion ist Nachkontrolle nötig.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Hier ist das Signal gut. Beim EU License Research, einem Honeypot-Test auf aktuelle Lizenzrestriktionen aus Web-Quellen, blieb das Modell im abgerufenen Material. Content-Verification-State A und keine erkannte Halluzination sind der eigentliche Vertrauensanker dieses Laufs. Es antwortet also nicht aus implizitem Vorwissen, wenn frische Quellen erforderlich sind.

Fehlerresilienz

Beim Tool Failure Handling mit 404, also dem Test auf transparenten Umgang mit gescheiterten Abrufen, reagiert Kimi K2.6 produktionsgerecht. P2 80 bei gleichzeitig keiner Halluzination trotz 404 ist ein gutes Signal. Das Modell kommuniziert den Fehlerzustand, statt fehlenden Seiteninhalt zu erfinden. Für reale Tool-Pipelines ist das akzeptabel.

Betriebsprofil

Call 1: 9.77s. Call 2: 26.39s. MCP-Latenz: 1.54s. Total: 226.23s. Insgesamt langsam. Kosten pro Run: 0.008944 USD. Günstig bis moderat im Verhältnis zur gezeigten Leistung.

Fazit & Empfehlung

Geeignet für agentische Recherche- und Orchestrierungs-Pipelines, in denen das Modell Tools sicher ansteuert, Fehler transparent meldet und ein nachgelagerter Validator die Verdichtung prüft. Nicht die richtige Wahl für Pipelines, in denen die erste textuelle Synthese bereits entscheidungsreif sein muss. Wenn Sie Kimi K2.6 einsetzen, dann als Tool-Operator mit kontrollierter Output-Stufe, nicht als unbeaufsichtigten Endautor.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.

Tool-Use-Profil: 6 Assets im Detail

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average

Tool-Use-Details

Reliability

Betriebsprofil

Tool-Use-Review

Deployment-Urteil

Tool-Execution-Profil

Synthesetreue

Fehlerresilienz

Betriebsprofil

Fazit & Empfehlung