NVIDIA Nemotron 3 Ultra 550B A55B

NVIDIA Nemotron 3 Ultra ist NVIDIAs Frontier-Reasoning-Modell mit 550 Milliarden Gesamt- und 55 Milliarden aktiven Parametern auf hybrider Mamba-Transformer-MoE-Architektur mit LatentMoE-Routing und MTP-Schichten. Das Kontextfenster umfasst eine Million Tokens, das Reasoning ist konfigurierbar. Native Tool-Aufrufe und Agentic-Orchestrierung, unter NVIDIA Open Model License als Open-Weights-Modell verfügbar.

NVIDIA Version 3 Ultra Kommerzielle Nutzung erlaubt MoE 550 B (55 B aktiv) 1000 K Context 04/2026 $0.5 / $2.5 per 1M

Open Weights
Frontier
OR
Text
Instruction-Tuned
Agentic Orchestrator
Real-Time

Sovereign Risk: LOW Rein lokale Inferenz ohne Cloud-Verbindung möglich. CLOUD Act ist nur bei API-Nutzung über NVIDIA-Infrastruktur relevant, nicht bei lokalem Deployment der öffentlich verfügbaren Gewichte.

Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

Name	P1	P2	Combined
EU License Research	100	0	40
HTTP Fetch & Extract	80	35	57.5
Tool Failure Handling (404)	40	40	37
Web Search & Tool Selection	100	20	64
URL Construction & Fetch	80	80	80
Multilingual Search & Synthesis	100	0	50

Name

Combined

EU License Research

100

HTTP Fetch & Extract

57.5

Tool Failure Handling (404)

Web Search & Tool Selection

100

URL Construction & Fetch

Multilingual Search & Synthesis

100

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

Tool Call Valid: Nein

Retry: Nicht erforderlich

Halluzination: Erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1: 23.98; First Request

MCP: 0.98; Protocol Latency

Synthesis: 2.87; Response Generation

Total: 167.01; Sum of All Phases

Token: 24835; Input + Output

Cost: $0; Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Deployment-Urteil

Bedingt deploy, weil die Tool-Ausführung oft stark ist, aber die Synthesetreue mit Combined 54.75 und ungültigem Tool-Call-Verhalten nicht ausreicht, um eine MCP-Pipeline ohne enge Leitplanken zu tragen.

Tool-Execution-Profil

Das Modell zeigt echte Werkzeugintelligenz, aber keine durchgehend verlässliche Protokolldisziplin. Beim Test Web Search & Tool Selection, der prüft ob ohne Hinweis web_search statt fetch gewählt wird, entscheidet es korrekt und erreicht volle Tool-Ausführung. Das spricht gegen ein starres Muster. Auch beim URL-Construction-Test, der die Ableitung einer Ziel-URL aus eigenem Wissen misst, arbeitet es brauchbar, aber nicht deterministisch genug für harte Produktionspfade.

Kritisch ist der Meta-Befund: tool_call_valid=False. Das bedeutet nicht, dass es Tools grundsätzlich nicht versteht. Es bedeutet, dass die Aufrufe oder das umgebende Format nicht konsistent MCP-tauglich sind. Für einen Agentic-Orchestrator in der Frontier-Klasse ist das ein relevanter Mangel. Positiv ist, dass kein Retry erforderlich war. Das Problem liegt also eher in der Erstpräzision als in wiederholtem Formatversagen.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Schwach. P2 von 29.17 ist der zentrale Befund dieses Laufs. Das Modell kann Informationen beschaffen, verliert aber beim Verdichten, Zuordnen und sauberen Rückführen in die Antwort. Das sieht man besonders an EU License Research und Multilingual Search & Synthesis, wo die Rechercheleistung hoch war, die inhaltliche Verarbeitung aber auf null fiel. Für produktive Tool-Pipelines ist genau das der Bruchpunkt: Das Tool hilft nur, wenn das Modell dessen Output belastbar weiterverarbeitet.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Nicht verlässlich genug. Im Honeypot EU License Research, der prüft ob aktuelle Lizenzrestriktionen aus Web-Quellen statt aus Trainingswissen beantwortet werden, lag P2 bei 0. Zwar wurde dort keine Halluzination markiert, aber der globale Halluzinationsbefund ist dennoch True. Das ist ein Sicherheitsrisiko. Sobald ein Modell erfundene Fakten als Tool-Ergebnis ausgibt, verliert die gesamte Infrastruktur ihre Prüfbarkeit.

Fehlerresilienz

Beim 404-Test, der transparenten Umgang mit einem fehlgeschlagenen Tool-Call gegen halluzinierten Ersatzinhalt misst, bleibt das Modell auf der akzeptablen Seite. Es erfindet keinen Seiteninhalt trotz Fehler. P2 40 ist nicht stark, aber operativ brauchbar. Für Produktion ist entscheidend: Es verschleiert den Fehler nicht.

Betriebsprofil

Call 1: 23.98s. Call 2: 2.87s. MCP-Latenz: 0.98s. Total: 167.01s. Langsam. Kosten/Run: local. Günstig im Inferenzpreis, aber die Laufzeit ist im Verhältnis zur schwachen Syntheseleistung nicht attraktiv.

Fazit & Empfehlung

Geeignet für überwachte Recherche-Pipelines, in denen ein zweites System die Antwort validiert oder nur Rohmaterial übernommen wird. Nicht geeignet für Compliance, Policy, Lizenz- oder mehrsprachige Wissenspipelines, in denen Tool-Ergebnisse präzise zusammengeführt und ohne Faktendrift ausgegeben werden müssen. Wenn Sie es einsetzen, dann als Tool-nahen Sammler mit strikter Ausgabevalidierung, nicht als letzte Instanz der Synthese.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.

NVIDIA Nemotron 3 Ultra 550B A55B

Tool-Use-Profil: 6 Assets im Detail

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average

Tool-Use-Details

Reliability

Betriebsprofil

Tool-Use-Review

Deployment-Urteil

Tool-Execution-Profil

Synthesetreue

Fehlerresilienz

Betriebsprofil

Fazit & Empfehlung