NVIDIA Nemotron 3 Ultra 550B A55B
NVIDIA Nemotron 3 Ultra ist ein Open-Frontier-Reasoning- und Orchestrierungsmodell von NVIDIA mit 55B aktiven Parametern (550B gesamt, MoE). Hybrid Transformer-Mamba Mixture-of-Experts-Architektur, 1M-Token-Kontextfenster, multimodaler Text-zu-Text-Workflow. Veröffentlicht am 4. Juni 2026. Speziell optimiert für Reasoning, Agenten-Orchestrierung und Frontier-Wissensarbeit. Verfügbar als Open Weights auf Hugging Face.
- Open Weights
- Frontier
- OR
- Thinking
- Long-Context
- Agentic
- Interactive
Sovereign Risk: MEDIUM NVIDIA ist ein US-amerikanisches Unternehmen und unterliegt dem CLOUD Act. Die Gewichte sind öffentlich verfügbar auf Hugging Face (nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B-BF16) und können lokal betrieben werden. Lizenz: NVIDIA Open Model License v1 (permissiv, kommerzielle Nutzung erlaubt).
Schlüsselmetriken
Score · Latenz · Kosten · Qualität
- Total Score Silver
- 78.14
- Routine
- 47.71
- Reasoning
- 30.43
- LLM Judge Avg
- 3.92 / 5
- 100% Coverage
- Avg Task Duration
- 39.75s
- ️ Interactive
- Token Rate
- 28.18tok/s
- Output Rate
- P95 Latency
- 130.46s
- Top 5 %
- Total Tokens
- 51.8K
- Output Volume
- Cost per 1K
- $0.0025
- USD / 1K Requests
- Benchmark Cost
- $0.13
- Total · 51.8K tok
Benchmark-Module
7 Module · gewichtet · vs. Modellmedian & Spitzenreiter
Token-Effizienz & Latenz
Verbrauch pro Modul vs. Modellmedian