NVIDIA Nemotron 3 Ultra 550B A55B

NVIDIA Nemotron 3 Ultra ist ein Open-Frontier-Reasoning- und Orchestrierungsmodell von NVIDIA mit 55B aktiven Parametern (550B gesamt, MoE). Hybrid Transformer-Mamba Mixture-of-Experts-Architektur, 1M-Token-Kontextfenster, multimodaler Text-zu-Text-Workflow. Veröffentlicht am 4. Juni 2026. Speziell optimiert für Reasoning, Agenten-Orchestrierung und Frontier-Wissensarbeit. Verfügbar als Open Weights auf Hugging Face.

NVIDIA Version 3 Ultra Kommerzielle Nutzung erlaubt MoE 550 B (55 B aktiv) 1000 K Context 04/2026 $0.5 / $2.5 per 1M

Open Weights
Frontier
OR
Thinking
Long-Context
Agentic
Interactive

Sovereign Risk: MEDIUM NVIDIA ist ein US-amerikanisches Unternehmen und unterliegt dem CLOUD Act. Die Gewichte sind öffentlich verfügbar auf Hugging Face (nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-BF16) und können lokal betrieben werden. Lizenz: NVIDIA Open Model License v1 (permissiv, kommerzielle Nutzung erlaubt).

Schlüsselmetriken

Score · Latenz · Kosten · Qualität

Total Score Silver: 78.14

Routine: 47.71
Reasoning: 30.43

Rank #2

LLM Judge Avg: 3.92; 100% Coverage

Avg Task Duration: 39.75; ️ Interactive

Token Rate: 28.18; Output Rate

P95 Latency: 130.46; Top 5 %

Total Tokens: 51.8K; Output Volume

Cost per 1K: $0.0025; USD / 1K Requests

Benchmark Cost: $0.13; Total · 51.8K tok

Benchmark-Module

7 Module · gewichtet · vs. Modellmedian & Spitzenreiter

NVIDIA Nemotron 3 Ultra 550B A55B Bestes Modell Ø Alle Modelle

Token-Effizienz & Latenz

Verbrauch pro Modul vs. Modellmedian

NVIDIA Nemotron 3 Ultra 550B A55B

Schlüsselmetriken

Benchmark-Module

Token-Effizienz & Latenz

Token-Verbrauch pro Modul

Performance-Profil