Llama 3.3 70B Versatile

Llama 3.3 70B Versatile ist Metas Allround-Modell der 70-Milliarden-Klasse mit ausgewogenen Stärken über ein breites Aufgabenspektrum. Mit 128.000 Tokens Kontextfenster und offenen Gewichten unter der Llama-3.3-Community-Lizenz ist das Modell wahlweise lokal für maximale Datensouveränität oder über Cloud-Anbieter verfügbar.

Meta Version 3.3-70B Kommerzielle Nutzung erlaubt Dense 70 B 128 K Context 12/2024 $0.59 / $0.79 per 1M

Restricted Weights
Server
GR
Text
Instruction-Tuned
Real-Time

Sovereign Risk: MEDIUM Meta ist ein US-Unternehmen; die Gewichte sind öffentlich zugänglich, und lokaler Betrieb vermeidet API-Datenabfluss.

Tool-Use-Details

Asset-Performance, Zuverlässigkeit und Laufzeit-Profil

Name	P1	P2	Combined
EU License Research	40	20	28
HTTP Fetch & Extract	80	15	47.5
Tool Failure Handling (404)	80	80	80
Web Search & Tool Selection	40	20	31
URL Construction & Fetch	40	15	27.5
Multilingual Search & Synthesis	40	40	40

Name

Combined

EU License Research

HTTP Fetch & Extract

47.5

Tool Failure Handling (404)

Web Search & Tool Selection

URL Construction & Fetch

27.5

Multilingual Search & Synthesis

CrucibleMark prüft Tool-Use in 6 voneinander unabhängigen Tests. Klicken Sie auf einen Test-Namen für die Details.

Reliability

Tool Call Valid: Nein

Retry: Nicht erforderlich

Halluzination: Erkannt

Reliability misst, wie verlässlich ein Modell Werkzeugaufrufe tatsächlich ausführt: Tool Call Valid Schema und Format akzeptiert, Retry Required erst nach Wiederholung erfolgreich, Halluzination Flag erfundene Tools oder Parameter erkannt. Alle drei grün bedeutet produktionstauglich.

Betriebsprofil

Call 1: 0.31; First Request

MCP: 1.66; Protocol Latency

Synthesis: 1.17; Response Generation

Total: 18.86; Sum of All Phases

Token: 3816; Input + Output

Cost: $0.0027; Cost per Run

Das Betriebsprofil zeigt die Laufzeit- und Kostenkennzahlen des Modell-Laufs: Call 1 First Request, MCP Protocol Latency, Synthesis Response Generation, Total Summe aller Phasen, erganzt um Token Input und Output sowie Cost Kosten pro Lauf.

Deployment-Urteil

Bedingt deploy, weil die Tool-Calls formal valide sind, der Gesamteindruck mit 42.33 aber klar zu schwach für vertrauensintensive Tool-Pipelines ist und ein Halluzinationssignal im Lauf als Sicherheitsrisiko stehen bleibt.

Tool-Execution-Profil

Das Modell kann MCP-konform aufrufen. Tool-Call valide: true, Retry war nicht nötig. Das spricht für ein Format, das in eine bestehende Infrastruktur integrierbar ist. Das eigentliche Problem liegt nicht im Protokoll, sondern in der Werkzeugwahl und in der operativen Präzision.

Beim Test Web Search & Tool Selection, der ohne expliziten Hinweis die Wahl zwischen Suche und direktem Abruf prüft, erreicht es nur P1 40. Beim Test URL Construction & Fetch, der die eigenständige Ableitung einer Ziel-URL und den anschließenden Fetch misst, liegt es ebenfalls bei P1 40. Das zeigt keine belastbare Tool-Intelligenz. Das Modell folgt eher einem unsicheren Grundmuster, statt den Informationsbedarf sauber in Such- oder Abrufschritte zu zerlegen. Positiv ist nur HTTP Fetch & Extract mit P1 80. Wenn die richtige Ressource bereits feststeht, kann es den Call ausführen. Für dynamische Pipelines reicht das nicht.

Synthesetreue

Wie gut verdichtet es Tool-Ergebnisse? Schwach. P2 31.67 ist der zentrale Ausschlussgrund für hochwertige Retrieval- oder Compliance-Strecken. Besonders auffällig sind EU License Research mit P2 20, HTTP Fetch & Extract mit P2 15 und URL Construction & Fetch mit P2 15. Das Modell ruft also teils korrekt ab, verdichtet den Inhalt danach aber unzuverlässig oder unpräzise. Genau dort bricht in Produktion die Kette.

Bleibt es im Tool-Ergebnis oder weicht es auf Training aus? Im Honeypot EU License Research, der prüft, ob aktuelle Lizenzrestriktionen aus Web-Quellen statt aus Trainingswissen beantwortet werden, bleibt das Ergebnis widersprüchlich: Halluzination dort nicht erkannt, aber nur P2 20 und Content-Verification-State B2. Das heißt nicht, dass es offen frei erfindet. Es heißt, dass die Bindung an die Quelle nicht stark genug ist. Da im Gesamtlauf Halluzination erkannt wurde, ist das als Sicherheitsrisiko zu werten: Sobald ein Modell erfundene Fakten als toolgestützt ausgibt, verliert die gesamte Pipeline ihre Vertrauensbasis.

Fehlerresilienz

Hier ist das Modell brauchbar. Im Test Tool Failure Handling (404), der transparenten Umgang mit einem fehlgeschlagenen Abruf misst, erreicht es P2 80. Es hat trotz 404 keinen Seiteninhalt halluziniert. Das ist für Produktion wichtig. Ein gescheiterter Tool-Call wird als Fehler behandelt, nicht mit Ersatzinhalt kaschiert.

Souveränitätsprofil

Lokal betreibbar und damit für souveräne Deployments attraktiv. Leistung bleibt aber begrenzt: 1.37 Punkte unter dem Fleet-Ø von 67.84. Der Souveränitätsvorteil kompensiert die schwache Tool-Synthese nicht.

Fazit & Empfehlung

Geeignet für lokale, kostenarme Assistenz-Pipelines mit enger Aufgabenführung, festen URLs und nachgelagerter Validierung. Nicht geeignet für autonome Rechercheketten, Compliance-Prüfungen, regulatorische Workflows oder jede MCP-Pipeline, in der das Modell Suchstrategie wählen und Tool-Ergebnisse verlässlich zusammenführen muss. Wenn Sie es einsetzen, dann nur als ausführendes Glied unter harter Orchestrierung und mit externer Ergebnisprüfung.

Diese Auswertung wurde automatisch auf Grundlage der Benchmark-Daten generiert. Eingesetztes Modell: GPT 4.5 von OpenAI. Die Rohdaten und die vollständige Methodik sind im GitHub-Projekt dokumentiert.