Der Preis hinter dem Preis Score, Token-Verbrauch und Benchmark-Kosten – alle getesteten KI-Modelle im direkten Vergleich

Cent pro Million Tokens klingt günstig, solange man nicht weiß, wie viele Tokens ein Modell tatsächlich verbraucht. CrucibleMark misst beides: den realen Token-Verbrauch über alle Benchmark-Aufgaben und den daraus resultierenden Gesamtpreis pro Durchlauf. Der Chart zeigt den Unterschied zwischen sparsamen Modellen, geschwätzigen Modellen und solchen, die trotz hohem Score erschreckend teuer werden.


Ein Score sagt, wie gut ein Modell antwortet. Der Token-Verbrauch sagt, wie viel es dafür braucht. Erst beides zusammen ergibt den echten Preis. Das klingt selbstverständlich, hat mich im echten Betrieb aber trotzdem erwischt. Im direkten API-Einsatz, etwa beim Coden mit einem Assistenten, bestimmt die Ausgabe den Preis: wie viel ein Modell schlussfolgert und wie ausführlich es antwortet. Wer ein geschwätziges Modell als Coding-Assistent nutzt, merkt das spätestens beim nächsten Blick auf die Rechnung. Anders im Agenten-Workflow. Dort dreht sich das Verhältnis um. Ein Modell beantwortet keine einzelnen Fragen mehr, sondern arbeitet über Stunden, mit wachsendem Kontext bei jeder Anfrage. Meine Faustregel: Rund 98% der Token, die ein Agent verbraucht, sind Prompt-Tokens. Nicht Antworten, sondern Erinnerung. Was bei 10 Requests harmlos wirkt, wird bei 300 zur Kostenfalle. Für beide Szenarien gilt dasselbe Prinzip: Der Tarif schlägt die Verbosität. Wer ein teures Modell im Agenten-Workflow einsetzt, zahlt diesen Tarif nicht einmal, sondern mit jeder Anfrage erneut, für denselben wachsenden Kontext.

Der folgende Chart zeigt, was ein vollständiger Benchmark-Durchlauf kostet: gemessen am tatsächlichen Token-Verbrauch und dem jeweiligen Modell-Tarif. Sortierbar nach Score, Verbrauch oder Kosten, drei Sichtweisen auf dieselben Modelle.

Token vs. Preis

Was kostet ein kompletter Benchmark-Durchlauf? Der tatsächliche Token-Verbrauch multipliziert mit dem jeweiligen Modell-Tarif ergibt einen direkt vergleichbaren Preis pro Durchlauf. Der Chart lässt sich nach Score, Verbrauch oder Kosten sortieren: drei Perspektiven auf dieselben Modelle. Enthalten sind ausschließlich Modelle mit API-Tarif. Lokal betriebene Open-Weight-Modelle sowie kostenfreie Angebote einzelner Provider sind nicht enthalten.

Lesehilfe: Score = Benchmark-Gesamtpunktzahl  ·  Tokens = Gesamtverbrauch aller Tests  ·  Kosten = Token-Preis × Verbrauch

Score
Token-Verbrauch
Benchmark-Kosten

Was der Chart nicht zeigt – und trotzdem gilt

Die Zahlen im Chart sind Benchmark-Kosten: ein Durchlauf, alle Aufgaben, kein angewachsener Kontext. Im echten Betrieb sieht das anders aus. Ein Modell, das im Benchmark 0,99 $ kostet, kann im produktiven Agenten-Workflow denselben Betrag pro Stunde verursachen. Oder pro zehn Minuten, je nach Aufgabendichte. Ein günstiges Modell, eine durchdachte Architektur und ein kontrollierter Kontext bringen mehr als ein hoher Score.

Das beste KI-Modell ist nicht das stärkste, sondern das passendste. Es erfüllt seinen Zweck und passt ins Budget, ohne dass man nach jeder Anfrage auf die Kosten schauen muss.

Eine Zahl aus drei Tagen realem Agenten-Betrieb: Dieselbe Arbeitslast, dieselben Aufgaben, 30 Millionen Tokens. DeepSeek V4 Flash kostete 3,87 €. Claude Opus hätte ca. 420 € gekostet. Der Score-Unterschied im Benchmark: acht Punkte. Das entspricht etwa dem Unterschied zwischen einer Profi-Maschine und einem soliden Baumarkt-Gerät. Wer eine gut ausgestattete Werkstatt betreibt, kauft die Profi-Maschine. Wer zu Hause ab und zu ein Brett sägt, braucht sie nicht. Die vollständige Geschichte gibt es im Magazin.