Der Preis hinter dem Preis Score, Token-Verbrauch und Benchmark-Kosten – alle getesteten KI-Modelle im direkten Vergleich
Cent pro Million Tokens klingt günstig, solange man nicht weiß, wie viele Tokens ein Modell tatsächlich verbraucht. CrucibleMark misst beides: den realen Token-Verbrauch über alle Benchmark-Aufgaben und den daraus resultierenden Gesamtpreis pro Durchlauf. Der Chart zeigt den Unterschied zwischen sparsamen Modellen, geschwätzigen Modellen und solchen, die trotz hohem Score erschreckend teuer werden.
Ein Score sagt, wie gut ein Modell antwortet. Der Token-Verbrauch sagt, wie viel es dafür braucht. Erst beides zusammen ergibt den echten Preis. Das klingt selbstverständlich, hat mich im echten Betrieb aber trotzdem erwischt. Im direkten API-Einsatz, etwa beim Coden mit einem Assistenten, bestimmt die Ausgabe den Preis: wie viel ein Modell schlussfolgert und wie ausführlich es antwortet. Wer ein geschwätziges Modell als Coding-Assistent nutzt, merkt das spätestens beim nächsten Blick auf die Rechnung. Anders im Agenten-Workflow. Dort dreht sich das Verhältnis um. Ein Modell beantwortet keine einzelnen Fragen mehr, sondern arbeitet über Stunden, mit wachsendem Kontext bei jeder Anfrage. Meine Faustregel: Rund 98% der Token, die ein Agent verbraucht, sind Prompt-Tokens. Nicht Antworten, sondern Erinnerung. Was bei 10 Requests harmlos wirkt, wird bei 300 zur Kostenfalle. Für beide Szenarien gilt dasselbe Prinzip: Der Tarif schlägt die Verbosität. Wer ein teures Modell im Agenten-Workflow einsetzt, zahlt diesen Tarif nicht einmal, sondern mit jeder Anfrage erneut, für denselben wachsenden Kontext.
Der folgende Chart zeigt, was ein vollständiger Benchmark-Durchlauf kostet: gemessen am tatsächlichen Token-Verbrauch und dem jeweiligen Modell-Tarif. Sortierbar nach Score, Verbrauch oder Kosten, drei Sichtweisen auf dieselben Modelle.
Was der Chart nicht zeigt – und trotzdem gilt
Die Zahlen im Chart sind Benchmark-Kosten: ein Durchlauf, alle Aufgaben, kein angewachsener Kontext. Im echten Betrieb sieht das anders aus. Ein Modell, das im Benchmark 0,99 $ kostet, kann im produktiven Agenten-Workflow denselben Betrag pro Stunde verursachen. Oder pro zehn Minuten, je nach Aufgabendichte. Ein günstiges Modell, eine durchdachte Architektur und ein kontrollierter Kontext bringen mehr als ein hoher Score.
Das beste KI-Modell ist nicht das stärkste, sondern das passendste. Es erfüllt seinen Zweck und passt ins Budget, ohne dass man nach jeder Anfrage auf die Kosten schauen muss.
Eine Zahl aus drei Tagen realem Agenten-Betrieb: Dieselbe Arbeitslast, dieselben Aufgaben, 30 Millionen Tokens. DeepSeek V4 Flash kostete 3,87 €. Claude Opus hätte ca. 420 € gekostet. Der Score-Unterschied im Benchmark: acht Punkte. Das entspricht etwa dem Unterschied zwischen einer Profi-Maschine und einem soliden Baumarkt-Gerät. Wer eine gut ausgestattete Werkstatt betreibt, kauft die Profi-Maschine. Wer zu Hause ab und zu ein Brett sägt, braucht sie nicht. Die vollständige Geschichte gibt es im Magazin.