Llama 3.3 70B Versatile

Llama 3.3 70B Versatile ist Metas Allround-Modell der 70-Milliarden-Klasse mit ausgewogenen Stärken über ein breites Aufgabenspektrum. Mit 128.000 Tokens Kontextfenster und offenen Gewichten unter der Llama-3.3-Community-Lizenz ist das Modell wahlweise lokal für maximale Datensouveränität oder über Cloud-Anbieter verfügbar.

Meta Version 3.3-70B Kommerzielle Nutzung erlaubt Dense 70 B 128 K Context 12/2024 $0.59 / $0.79 per 1M

  • Restricted Weights
  • Server
  • GR
  • Text
  • Instruction-Tuned
  • Real-Time

Sovereign Risk: MEDIUM Meta ist ein US-Unternehmen; die Gewichte sind öffentlich zugänglich, und lokaler Betrieb vermeidet API-Datenabfluss.

Tool-Use-Profil: 6 Assets im Detail

Vergleich der Asset-Performance (P1/P2/Combined) gegenüber dem Flotten-Durchschnitt

Asset-Performance (Radar)

Score Breakdown vs. Fleet Average


Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

  • Tool Call Valid: Nein
  • Retry: Nicht erforderlich
  • Halluzination: Erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1
0.31
First Request
MCP
1.66
Protocol Latency
Synthesis
1.17
Response Generation
Total
18.86
Sum of All Phases
Token
3816
Input + Output
Cost
$0.0027
Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Tool-Use-Review

Aktualisiert am · Instruction-Tuned

Deployment-Urteil

Bedingt deploy, weil die Tool-Calls formal valide sind, der Gesamteindruck mit 42.33 aber klar zu schwach für vertrauensintensive Tool-Pipelines ist und ein Halluzinationssignal im Lauf als Sicherheitsrisiko stehen bleibt.

Tool-Execution-Profil

Das Modell kann MCP-konform aufrufen. Tool-Call valide: true, Retry war nicht nötig. Das spricht für ein Format, das in eine bestehende Infrastruktur integrierbar ist. Das eigentliche Problem liegt nicht im Protokoll, sondern in der Werkzeugwahl und in der operativen Präzision.

Beim Test Web Search & Tool Selection, der ohne expliziten Hinweis die Wahl zwischen Suche und direktem Abruf prüft, erreicht es nur P1 40. Beim Test URL Construction & Fetch, der die eigenständige Ableitung einer Ziel-URL und den anschließenden Fetch misst, liegt es ebenfalls bei P1 40. Das zeigt keine belastbare Tool-Intelligenz. Das Modell folgt eher einem unsicheren Grundmuster, statt den Informationsbedarf sauber in Such- oder Abrufschritte zu zerlegen. Positiv ist nur HTTP Fetch & Extract mit P1 80. Wenn die richtige Ressource bereits feststeht, kann es den Call ausführen. Für dynamische Pipelines reicht das nicht.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Schwach. P2 31.67 ist der zentrale Ausschlussgrund für hochwertige Retrieval- oder Compliance-Strecken. Besonders auffällig sind EU License Research mit P2 20, HTTP Fetch & Extract mit P2 15 und URL Construction & Fetch mit P2 15. Das Modell ruft also teils korrekt ab, verdichtet den Inhalt danach aber unzuverlässig oder unpräzise. Genau dort bricht in Produktion die Kette.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Im Honeypot EU License Research, der prüft, ob aktuelle Lizenzrestriktionen aus Web-Quellen statt aus Trainingswissen beantwortet werden, bleibt das Ergebnis widersprüchlich: Halluzination dort nicht erkannt, aber nur P2 20 und Content-Verification-State B2. Das heißt nicht, dass es offen frei erfindet. Es heißt, dass die Bindung an die Quelle nicht stark genug ist. Da im Gesamtlauf Halluzination erkannt wurde, ist das als Sicherheitsrisiko zu werten: Sobald ein Modell erfundene Fakten als toolgestützt ausgibt, verliert die gesamte Pipeline ihre Vertrauensbasis.

Fehlerresilienz

Hier ist das Modell brauchbar. Im Test Tool Failure Handling (404), der transparenten Umgang mit einem fehlgeschlagenen Abruf misst, erreicht es P2 80. Es hat trotz 404 keinen Seiteninhalt halluziniert. Das ist für Produktion wichtig. Ein gescheiterter Tool-Call wird als Fehler behandelt, nicht mit Ersatzinhalt kaschiert.

Souveränitätsprofil

Lokal betreibbar und damit für souveräne Deployments attraktiv. Leistung bleibt aber begrenzt: 1.37 Punkte unter dem Fleet-Ø von 67.84. Der Souveränitätsvorteil kompensiert die schwache Tool-Synthese nicht.

Fazit & Empfehlung

Geeignet für lokale, kostenarme Assistenz-Pipelines mit enger Aufgabenführung, festen URLs und nachgelagerter Validierung. Nicht geeignet für autonome Rechercheketten, Compliance-Prüfungen, regulatorische Workflows oder jede MCP-Pipeline, in der das Modell Suchstrategie wählen und Tool-Ergebnisse verlässlich zusammenführen muss. Wenn Sie es einsetzen, dann nur als ausführendes Glied unter harter Orchestrierung und mit externer Ergebnisprüfung.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.