Qwen 3 4B (Q6_K)
Vier Milliarden Parameter, Apache-2.0-Lizenz und ein optionaler Thinking-Modus: Qwen 3 4B ist für mobile Anwendungen und Edge-Setups gedacht, wo jedes Watt zählt. Lokal betreibbar unter Q6-Quantisierung, mit 128.000 Tokens Kontextfenster für ein Nano-Modell dieser Klasse grosszügig dimensioniert. Die Hersteller-Jurisdiktion China bringt bei politisch sensiblen Themen gelegentlich zensierte oder ausweichende Antworten mit sich.
- Open Weights
- Nano
- M4APL
- Text
- Real-Time
Sovereign Risk: LOW Das Modell wird lokal ohne Cloud-Verbindung betrieben; die CLOUD-Act- bzw. Datentransfer-Risiken aus einer Cloud-Nutzung greifen hier nicht. Die Provenance bleibt durch die Community-Quantisierung zwar nachvollziehbar, aber das operative Risiko ist bei reiner lokaler Inferenz niedrig.
Schlüsselmetriken
Score · Latenz · Kosten · Qualität
- Total Score Bronze
- 59.42
- Routine
- 37.2
- Reasoning
- 22.22
- LLM Judge Avg
- 2.84 / 5
- 100 Coverage
- Avg Task Duration
- 9.95s
- Real-Time
- Token Rate
- 73.98tok/s
- Output Rate
- P95 Latency
- 24.76s
- Top 5 %
- Total Tokens
- 43500
- Output Volume
- Cost per 1K
- $0
- USD / 1K Requests
- Benchmark Cost
- $0
- Total · 43500 tok
Benchmark-Module
10 Module · gewichtet · vs. Modellmedian & Spitzenreiter
Token-Effizienz & Latenz
Verbrauch pro Modul vs. Modellmedian