Llama 3.3 Nemotron Super 49B v1.5

NVIDIA Llama 3.3 Nemotron Super 49B v1.5 ist eine durch Pruning und Destillation optimierte Variante von Metas Llama 3.3 70B mit 49 Milliarden Parametern. Das Modell bietet hohe Reasoning-Leistung bei geringerem Ressourcenbedarf, ein Kontextfenster von 131.000 Tokens und optionalen Thinking-Modus über System-Prompt-Steuerung. Unter NVIDIA Open Model License als Open-Weights-Variante lokal oder über Cloud-Anbieter verfügbar.

NVIDIA Version 3.3 Super v1.5 Kommerzielle Nutzung erlaubt Dense 49 B (49 B aktiv) 131 K Context 12/2024 $0.4 / $0.4 per 1M

Open Weights
Server
OR
Text
Instruction-Tuned
Interactive

Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

Name	P1	P2	Combined
EU License Research	100	60	76
HTTP Fetch & Extract	80	40	60
Tool Failure Handling (404)	80	60	73
Web Search & Tool Selection	100	80	91
URL Construction & Fetch	80	60	70
Multilingual Search & Synthesis	100	35	67.5

Name

Combined

EU License Research

100

HTTP Fetch & Extract

Tool Failure Handling (404)

Web Search & Tool Selection

100

URL Construction & Fetch

Multilingual Search & Synthesis

100

67.5

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

Tool Call Valid: Nein

Retry: Nicht erforderlich

Halluzination: Erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1: 9.9; First Request

MCP: 1.17; Protocol Latency

Synthesis: 31.03; Response Generation

Total: 252.59; Sum of All Phases

Token: 5538; Input + Output

Cost: $0.0022; Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Deployment-Urteil

Bedingt deploy, weil die Tool-Ausführung stark wirkt, aber ein invalides Tool-Call-Signal und erkannte Halluzinationen das Vertrauen in eine produktive MCP-Pipeline begrenzen.

Tool-Execution-Profil

Das Modell zeigt mit P1 90.00 klar, dass es Tool-Nutzung grundsätzlich beherrscht. Das ist für ein Reasoning-Modell dieser Klasse positiv, weil es nicht nur plant, sondern Werkzeuge auch praktisch einsetzt. Der kritische Bruch liegt im Protokollsignal: Der Tool-Call war nicht valide. Das ist kein kosmetischer Fehler. In MCP-Pipelines bedeutet ein invalider Call, dass Orchestrierung, Parsing oder Folgeaktionen abbrechen können, obwohl die inhaltliche Absicht richtig war.

Zu den Auswahltests liegt keine aufgeschlüsselte Einzelwertung vor. Deshalb lässt sich nicht belastbar sagen, ob das Modell zwischen Web Search & Tool Selection und URL Construction & Fetch intelligent differenziert oder nur einem festen Muster folgt. Für Produktion ist genau diese Unklarheit relevant. Ein Modell kann hohe Tool-Affinität zeigen und trotzdem bei der konkreten Wahl des passenden Werkzeugs unstet sein. Positiv ist, dass kein Retry erforderlich war. Das spricht eher gegen ein bloßes Formatproblem und eher für einen punktuellen Validitätsfehler im Call selbst.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Nur eingeschränkt verlässlich. P2 55.83 ist für produktive Synthese niedrig. Das Modell kann Ergebnisse offenbar zusammenführen, aber nicht mit der Präzision, die man für Compliance-, Research- oder Entscheidungsstrecken braucht. Gerade nach erfolgreicher Tool-Nutzung erwartet man eine saubere, knappe und quellennah gebundene Verdichtung. Diese Bindung wirkt hier nicht stabil genug.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Im Honeypot EU License Research, der prüft, ob aktuelle Lizenzrestriktionen aus Web-Quellen statt aus Trainingswissen beantwortet werden, blieb das Modell unauffällig. Das ist ein gutes Vertrauenssignal. Gleichzeitig bleibt der globale Halluzinationsbefund ein Sicherheitsrisiko. Sobald ein Modell erfundene Fakten als Tool-Ergebnis ausgibt, wird nicht nur eine Antwort schwach, sondern die gesamte Tool-Infrastruktur unzuverlässig.

Fehlerresilienz

Im 404-Test, der transparente Reaktion auf einen fehlschlagenden Tool-Call prüft, halluzinierte das Modell keinen Ersatzinhalt. Das ist produktionsreif. Es zeigt, dass das Modell Fehler eines Tools als Fehler behandeln kann, statt sie mit erfundenem Seiteninhalt zu kaschieren. Für robuste Pipelines ist das wichtiger als stilistische Antwortqualität.

Souveränitätsprofil

Lokal betreibbar als Open-Weights-Modell und damit für souveräne Deployments attraktiv. Kein Sovereignty Gap ausweisbar, Referenz bleibt n/a-Punkte unter dem Fleet-Ø von 67.84.

Fazit & Empfehlung

Geeignet für lokal betriebene Assistenz- und Research-Pipelines mit menschlicher Abnahme, Logging und harter Tool-Call-Validierung vor Ausführung. Nicht geeignet für autonom laufende MCP-Strecken, in denen das Modell Tool-Ergebnisse verbindlich zusammenfasst oder ohne Guardrails Folgeaktionen auslöst. Wer es einsetzt, sollte strikt zwischen Tool-Ausführung und finaler Antwortfreigabe entkoppeln.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.