NVIDIA Nemotron 3 Nano 30B A3B

NVIDIA Nemotron 3 Nano 30B A3B ist ein effizientes Hybrid-Modell aus der Nemotron-3-Serie, das Mamba-2 mit Transformer-Schichten kombiniert. Bei 31,6 Milliarden Gesamtparametern aktiviert das Modell nur 3,2 Milliarden pro Token, das Kontextfenster umfasst bis zu eine Million Tokens. Optionaler Thinking-Modus mit konfigurierbarem Budget, native Tool-Aufrufe und Agentic-Fähigkeiten ab Werk. Unter NVIDIA Open Model License als Open-Weights-Modell verfügbar.

NVIDIA Version 3 Nano A3B Kommerzielle Nutzung erlaubt MoE 31.6 B (3.2 B aktiv) 1000 K Context 04/2026 $0.05 / $0.2 per 1M

Open Weights
Medium
OR
Text
Instruction-Tuned
Agentic Orchestrator
Interactive

Sovereign Risk: LOW Rein lokale Inferenz ohne Cloud-Verbindung möglich. CLOUD Act ist nur bei API-Nutzung über NVIDIA-Infrastruktur relevant, nicht bei lokalem Deployment der öffentlich verfügbaren Gewichte.

Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

Name	P1	P2	Combined
EU License Research	100	60	76
HTTP Fetch & Extract	80	40	60
Tool Failure Handling (404)	40	60	44
Web Search & Tool Selection	100	35	70.8
URL Construction & Fetch	80	100	90
Multilingual Search & Synthesis	95	15	55

Name

Combined

EU License Research

100

HTTP Fetch & Extract

Tool Failure Handling (404)

Web Search & Tool Selection

100

70.8

URL Construction & Fetch

100

Multilingual Search & Synthesis

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

Tool Call Valid: Nein

Retry: Erforderlich

Halluzination: Erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1: 2.97; First Request

MCP: 0.83; Protocol Latency

Synthesis: 24.47; Response Generation

Total: 169.62; Sum of All Phases

Token: 8094; Input + Output

Cost: $0.0011; Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Deployment-Urteil

Bedingt deploy: Die Tool-Ausführung ist oft brauchbar, aber der ungültige Tool-Call und die erkannte Halluzination schließen einen unkontrollierten Einsatz in produktiven MCP-Pipelines aus.

Tool-Execution-Profil

Das Modell zeigt echte Werkzeugwahl statt reinem Musterfolgen. Beim Test Web Search & Tool Selection, der prüft, ob ohne Hinweis web_search statt fetch gewählt wird, trifft es die richtige Entscheidung zuverlässig. Das spricht für brauchbare Tool-Intelligenz in dynamischen Retrieval-Schritten. Auch beim Test URL Construction & Fetch, der die eigenständige Ableitung der Ziel-URL misst, arbeitet es überwiegend korrekt, aber nicht deterministisch genug für harte Produktionspfade.

Der Hauptvorbehalt ist nicht die Auswahl, sondern die Protokolltreue. P1 von 82.50 ist solide, aber tool_call_valid=false ist ein klarer Betriebsbefund. Ein Modell darf das richtige Tool nicht nur konzeptuell kennen, sondern muss den Call auch formal gültig erzeugen. Da kein Retry erforderlich war, liegt das Problem eher in der Erstgenauigkeit als in einem behebbaren Formatdrift unter Wiederholung.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Nur eingeschränkt. P2 von 51.67 zeigt, dass das Modell gefundene Inhalte oft nicht präzise genug in belastbare Ergebnistexte überführt. Das sieht man besonders bei Multilingual Search & Synthesis, wo die sprachübergreifende Recherche in der deutschen Zusammenfassung stark an Genauigkeit verliert. Dagegen ist URL Construction & Fetch mit P2 100 ein Ausreißer nach oben, also eher ein enger Erfolgsfall als ein breites Muster.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Im Honeypot EU License Research, der prüft, ob aktuelle Lizenzrestriktionen aus Web-Quellen statt aus Trainingswissen beantwortet werden, bleibt das Modell auf dem beschafften Material. Das ist ein gutes Vertrauenssignal. Gleichzeitig gilt: hallucination_flag=true ist ein Sicherheitsrisiko. Sobald ein Modell erfundene Fakten als Ergebnis einer Tool-Kette ausgibt, beschädigt es die Verlässlichkeit der gesamten Infrastruktur.

Fehlerresilienz

Beim Test Tool Failure Handling (404), der transparente Reaktion auf einen fehlschlagenden Abruf misst, bleibt das Modell akzeptabel. Es halluziniert keinen Seiteninhalt trotz 404-Fehler und kommuniziert den Fehlschlag erkennbar. Das ist produktionsfähig. Die niedrige Ausführungsbewertung in diesem Asset zeigt aber, dass der Umgang mit Fehlerpfaden operativ unsauber bleibt.

Souveränitätsprofil

Lokal betreibbar und damit für souveräne Deployments attraktiv. Mit 65.96 Combined liegt es 1.88 Punkte unter dem Fleet-Ø von 67.84. Das ist nah genug am Durchschnitt, um lokale Nutzung zu rechtfertigen, aber nicht stark genug, um Qualitätsrisiken durch Souveränität allein zu kompensieren.

Fazit & Empfehlung

Geeignet für lokale, kostenkritische Pipelines mit Mensch-im-Loop, klaren Guardrails und nachgelagerter Validierung von Tool-Outputs. Sinnvoll für Recherche-Anstoß, URL-Ableitung und einfache Fetch-Workflows. Nicht geeignet für Compliance, autonome Agentenpfade oder jede Pipeline, in der formale Tool-Korrektheit und synthesegetreue Verdichtung ohne Gegenkontrolle zwingend sind.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.