NVIDIA Nemotron 3 Nano 30B A3B

NVIDIA Nemotron 3 Nano 30B A3B ist ein effizientes Hybrid-Modell aus der Nemotron-3-Serie, das Mamba-2 mit Transformer-Schichten kombiniert. Bei 31,6 Milliarden Gesamtparametern aktiviert das Modell nur 3,2 Milliarden pro Token, das Kontextfenster umfasst bis zu eine Million Tokens. Optionaler Thinking-Modus mit konfigurierbarem Budget, native Tool-Aufrufe und Agentic-Fähigkeiten ab Werk. Unter NVIDIA Open Model License als Open-Weights-Modell verfügbar.

NVIDIA Version 3 Nano A3B Kommerzielle Nutzung erlaubt MoE 31.6 B (3.2 B aktiv) 1000 K Context 04/2026 $0.05 / $0.2 per 1M

Open Weights
Medium
OR
Text
Instruction-Tuned
Agentic Orchestrator
Interactive

Sovereign Risk: LOW Rein lokale Inferenz ohne Cloud-Verbindung möglich. CLOUD Act ist nur bei API-Nutzung über NVIDIA-Infrastruktur relevant, nicht bei lokalem Deployment der öffentlich verfügbaren Gewichte.

Schlüsselmetriken

Score · Latenz · Kosten · Qualität

Total Score Silver: 68.07

Routine: 41.93
Reasoning: 26.14

Rank #61

LLM Judge Avg: 3.42; 100 Coverage

Avg Task Duration: 28.54; ️ Interactive

Token Rate: 36.1; Output Rate

P95 Latency: 94.41; Top 5 %

Total Tokens: 106000; Output Volume

Cost per 1K: $0.0002; USD / 1K Requests

Benchmark Cost: $0.02; Total · 106000 tok

Benchmark-Module

10 Module · gewichtet · vs. Modellmedian & Spitzenreiter

NVIDIA Nemotron 3 Nano 30B A3B Bestes Modell Ø Alle Modelle

Token-Effizienz & Latenz

Verbrauch pro Modul vs. Modellmedian

NVIDIA Nemotron 3 Nano 30B A3B

Schlüsselmetriken

Benchmark-Module

Token-Effizienz & Latenz

Token-Verbrauch pro Modul

Performance-Profil