NVIDIA Nemotron 3 Nano 30B A3B
NVIDIA Nemotron 3 Nano 30B A3B ist ein effizientes Hybrid-Modell aus der Nemotron-3-Serie, das Mamba-2 mit Transformer-Schichten kombiniert. Bei 31,6 Milliarden Gesamtparametern aktiviert das Modell nur 3,2 Milliarden pro Token, das Kontextfenster umfasst bis zu eine Million Tokens. Optionaler Thinking-Modus mit konfigurierbarem Budget, native Tool-Aufrufe und Agentic-Fähigkeiten ab Werk. Unter NVIDIA Open Model License als Open-Weights-Modell verfügbar.
- Open Weights
- Medium
- OR
- Text
- Instruction-Tuned
- Agentic Orchestrator
- Interactive
Sovereign Risk: LOW Rein lokale Inferenz ohne Cloud-Verbindung möglich. CLOUD Act ist nur bei API-Nutzung über NVIDIA-Infrastruktur relevant, nicht bei lokalem Deployment der öffentlich verfügbaren Gewichte.
Schlüsselmetriken
Score · Latenz · Kosten · Qualität
- Total Score Silver
- 68.07
- Routine
- 41.93
- Reasoning
- 26.14
- LLM Judge Avg
- 3.42 / 5
- 100 Coverage
- Avg Task Duration
- 28.54s
- ️ Interactive
- Token Rate
- 36.1tok/s
- Output Rate
- P95 Latency
- 94.41s
- Top 5 %
- Total Tokens
- 106000
- Output Volume
- Cost per 1K
- $0.0002
- USD / 1K Requests
- Benchmark Cost
- $0.02
- Total · 106000 tok
Benchmark-Module
10 Module · gewichtet · vs. Modellmedian & Spitzenreiter
Token-Effizienz & Latenz
Verbrauch pro Modul vs. Modellmedian