NVIDIA Nemotron 3 Ultra 550B A55B

NVIDIA Nemotron 3 Ultra ist ein Open-Frontier-Reasoning- und Orchestrierungsmodell von NVIDIA mit 55B aktiven Parametern (550B gesamt, MoE). Hybrid Transformer-Mamba Mixture-of-Experts-Architektur, 1M-Token-Kontextfenster, multimodaler Text-zu-Text-Workflow. Veröffentlicht am 4. Juni 2026. Speziell optimiert für Reasoning, Agenten-Orchestrierung und Frontier-Wissensarbeit. Verfügbar als Open Weights auf Hugging Face.

NVIDIA Version 3 Ultra Kommerzielle Nutzung erlaubt MoE 550 B (55 B aktiv) 1000 K Context 04/2026 $0.5 / $2.5 per 1M

  • Open Weights
  • Frontier
  • OR
  • Thinking
  • Long-Context
  • Agentic
  • Interactive

Sovereign Risk: MEDIUM NVIDIA ist ein US-amerikanisches Unternehmen und unterliegt dem CLOUD Act. Die Gewichte sind öffentlich verfügbar auf Hugging Face (nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-BF16) und können lokal betrieben werden. Lizenz: NVIDIA Open Model License v1 (permissiv, kommerzielle Nutzung erlaubt).

Schlüsselmetriken

Score · Latenz · Kosten · Qualität

Total Score Silver
78.14
Routine
47.71
Reasoning
30.43

Rank #2

LLM Judge Avg
3.92
100% Coverage
Avg Task Duration
39.75
️ Interactive
Token Rate
28.18
Output Rate
P95 Latency
130.46
Top 5 %
Total Tokens
51.8K
Output Volume
Cost per 1K
$0.0025
USD / 1K Requests
Benchmark Cost
$0.13
Total · 51.8K tok

Benchmark-Module

7 Module · gewichtet · vs. Modellmedian & Spitzenreiter

NVIDIA Nemotron 3 Ultra 550B A55B Bestes Modell Ø Alle Modelle
Code Quality 78.68
CLI Benchmark 89
Logical Reasoning 77.02
UX Writing 70.51
Documentation 82.63
Content Transform. 76.94
Cultural Intelligence 78.52
Benchmark Cost $0.13

Token-Effizienz & Latenz

Verbrauch pro Modul vs. Modellmedian

Token-Verbrauch pro Modul

Performance-Profil