NVIDIA Nemotron 3 Nano 30B A3B

NVIDIA Nemotron 3 Nano 30B A3B ist ein effizientes Hybrid-Modell aus der Nemotron-3-Serie, das Mamba-2 mit Transformer-Schichten kombiniert. Bei 31,6 Milliarden Gesamtparametern aktiviert das Modell nur 3,2 Milliarden pro Token, das Kontextfenster umfasst bis zu eine Million Tokens. Optionaler Thinking-Modus mit konfigurierbarem Budget, native Tool-Aufrufe und Agentic-Fähigkeiten ab Werk. Unter NVIDIA Open Model License als Open-Weights-Modell verfügbar.

NVIDIA Version 3 Nano A3B Kommerzielle Nutzung erlaubt MoE 31.6 B (3.2 B aktiv) 1000 K Context 04/2026 $0.05 / $0.2 per 1M

  • Open Weights
  • Medium
  • OR
  • Text
  • Instruction-Tuned
  • Agentic Orchestrator
  • Interactive

Sovereign Risk: LOW Rein lokale Inferenz ohne Cloud-Verbindung möglich. CLOUD Act ist nur bei API-Nutzung über NVIDIA-Infrastruktur relevant, nicht bei lokalem Deployment der öffentlich verfügbaren Gewichte.

Schlüsselmetriken

Score · Latenz · Kosten · Qualität

Total Score Silver
68.07
Routine
41.93
Reasoning
26.14

Rank #61

LLM Judge Avg
3.42
100 Coverage
Avg Task Duration
28.54
️ Interactive
Token Rate
36.1
Output Rate
P95 Latency
94.41
Top 5 %
Total Tokens
106000
Output Volume
Cost per 1K
$0.0002
USD / 1K Requests
Benchmark Cost
$0.02
Total · 106000 tok

Benchmark-Module

10 Module · gewichtet · vs. Modellmedian & Spitzenreiter

NVIDIA Nemotron 3 Nano 30B A3B Bestes Modell Ø Alle Modelle
Code Quality 65.88
CLI Benchmark 86.67
Logical Reasoning 67.35
UX Writing 61.17
Documentation 66.2
Content Transform. 73.87
Cultural Intelligence 64.64
Synthesis Quality 51.67
Tool Execution 82.5
ToolUse Score 65.96
Benchmark Cost $0.02

Token-Effizienz & Latenz

Verbrauch pro Modul vs. Modellmedian

Token-Verbrauch pro Modul

Performance-Profil