Llama 3.3 Nemotron Super 49B v1.5

NVIDIA Llama 3.3 Nemotron Super 49B v1.5 ist eine durch Pruning und Destillation optimierte Variante von Metas Llama 3.3 70B mit 49 Milliarden Parametern. Das Modell bietet hohe Reasoning-Leistung bei geringerem Ressourcenbedarf, ein Kontextfenster von 131.000 Tokens und optionalen Thinking-Modus über System-Prompt-Steuerung. Unter NVIDIA Open Model License als Open-Weights-Variante lokal oder über Cloud-Anbieter verfügbar.

NVIDIA Version 3.3 Super v1.5 Kommerzielle Nutzung erlaubt Dense 49 B (49 B aktiv) 131 K Context 12/2024 $0.4 / $0.4 per 1M

Open Weights
Server
OR
Text
Instruction-Tuned
Interactive

Schlüsselmetriken

Score · Latenz · Kosten · Qualität

Total Score Silver: 69.85

Routine: 43.71
Reasoning: 26.14

Rank #54

LLM Judge Avg: 3.49; 100 Coverage

Avg Task Duration: 36.91; ️ Interactive

Token Rate: 20.73; Output Rate

P95 Latency: 83.14; Top 5 %

Total Tokens: 99700; Output Volume

Cost per 1K: $0.0004; USD / 1K Requests

Benchmark Cost: $0.04; Total · 99700 tok

Benchmark-Module

10 Module · gewichtet · vs. Modellmedian & Spitzenreiter

Llama 3.3 Nemotron Super 49B v1.5 Bestes Modell Ø Alle Modelle

Token-Effizienz & Latenz

Verbrauch pro Modul vs. Modellmedian

Llama 3.3 Nemotron Super 49B v1.5

Schlüsselmetriken

Benchmark-Module

Token-Effizienz & Latenz

Token-Verbrauch pro Modul

Performance-Profil