Llama 3.3 Nemotron Super 49B v1.5

NVIDIA Llama 3.3 Nemotron Super 49B v1.5 ist eine durch Pruning und Destillation optimierte Variante von Metas Llama 3.3 70B mit 49 Milliarden Parametern. Das Modell bietet hohe Reasoning-Leistung bei geringerem Ressourcenbedarf, ein Kontextfenster von 131.000 Tokens und optionalen Thinking-Modus über System-Prompt-Steuerung. Unter NVIDIA Open Model License als Open-Weights-Variante lokal oder über Cloud-Anbieter verfügbar.

NVIDIA Version 3.3 Super v1.5 Kommerzielle Nutzung erlaubt Dense 49 B (49 B aktiv) 131 K Context 12/2024 $0.4 / $0.4 per 1M

  • Open Weights
  • Server
  • OR
  • Text
  • Instruction-Tuned
  • Interactive

Schlüsselmetriken

Score · Latenz · Kosten · Qualität

Total Score Silver
69.85
Routine
43.71
Reasoning
26.14

Rank #54

LLM Judge Avg
3.49
100 Coverage
Avg Task Duration
36.91
️ Interactive
Token Rate
20.73
Output Rate
P95 Latency
83.14
Top 5 %
Total Tokens
99700
Output Volume
Cost per 1K
$0.0004
USD / 1K Requests
Benchmark Cost
$0.04
Total · 99700 tok

Benchmark-Module

10 Module · gewichtet · vs. Modellmedian & Spitzenreiter

Llama 3.3 Nemotron Super 49B v1.5 Bestes Modell Ø Alle Modelle
Code Quality 66
CLI Benchmark 80.34
Logical Reasoning 66.22
UX Writing 68.69
Documentation 64.72
Content Transform. 76.5
Cultural Intelligence 71.72
Synthesis Quality 55.83
Tool Execution 90
ToolUse Score 72.92
Benchmark Cost $0.04

Token-Effizienz & Latenz

Verbrauch pro Modul vs. Modellmedian

Token-Verbrauch pro Modul

Performance-Profil