Kurz erklärt
Ein Token ist die Grundeinheit, in der Large Language Models Text verarbeiten. Statt Buchstaben oder Wörter nutzen LLMs Tokens – Textfragmente, die statistisch häufig zusammen auftreten.
Faustregel: 1 Token ≈ 4 Zeichen ≈ ¾ eines Wortes (im Englischen, Deutsch etwas mehr)
Beispiele
- ‘Hallo’ = 1 Token
- ‘Hallo Welt!’ = ca. 4 Tokens
- 1 Seite Text ≈ 400-500 Tokens
- 1 durchschnittliche E-Mail ≈ 200-400 Tokens
Warum Tokens wichtig sind
1. Kosten: KI-APIs rechnen pro Token ab – Token-Verständnis ermöglicht präzise Budgetplanung.
2. Limits: Context Windows werden in Tokens gemessen – zu viele Tokens führen zu Kürzungen.
3. Geschwindigkeit: Mehr Tokens = längere Verarbeitung – effiziente Prompts sparen Zeit.
Aktuelle Preise (pro Million Tokens, 2025)
| Modell | Input | Output |
|---|
| Claude Sonnet | 3 $ | 15 $ |
| GPT-4o | 5 $ | 20 $ |
| Claude Haiku | 0,25 $ | 1,25 $ |
| Gemini Flash | 0,08 $ | 0,30 $ |
Beachte: Output-Tokens sind teurer als Input-Tokens – die KI kostet mehr fürs Schreiben als fürs Lesen.
Kostenbeispiel
1.000 Geschäfts-E-Mails analysieren (ca. 300 Tokens pro E-Mail):
- Input: 300.000 Tokens × 3 $/Million = 0,90 $
- Output: 100.000 Tokens × 15 $/Million = 1,50 $
- Gesamt: 2,40 $ (ca. 2,20 €)
Für Massenaufgaben ist Claude Sonnet erschwinglich – und günstiger als menschliche Arbeit.
Tipp: Modell nach Aufgabe wählen
Einfache Aufgaben (Kategorisierung, Extraktion): Haiku oder Flash – günstig und schnell.
Komplexe Aufgaben (Analyse, Strategieentwicklung): Sonnet oder GPT-4o – höhere Qualität rechtfertigt höhere Kosten.
Massenaufgaben (Tausende E-Mails, Dokumente): Flash – minimale Kosten bei akzeptabler Qualität.
Tokenisierung verstehen
Wort-Splitting: ‘Unternehmen’ kann 1 Token sein, ‘Unternehmensberatung’ kann 2-3 Tokens sein.
Zahlen: Jede Ziffer ist oft ein separates Token – ‘2025’ = 1-2 Tokens.
Sonderzeichen: Emojis und Sonderzeichen können mehrere Tokens verbrauchen.
Sprache: Deutsche Texte verbrauchen ~20% mehr Tokens als englische – deutscher Text ist token-ineffizienter.
Optimierung
Klare, präzise Prompts: Weniger Tokens für bessere Ergebnisse.
Wiederverwendung: Lange System-Prompts cachen statt bei jeder Anfrage neu senden (falls vom Anbieter unterstützt).
Chunking: Lange Dokumente aufteilen und nur relevante Teile senden (RAG).
Business-Relevanz
Token-Verständnis ist essentiell für KI-Budgetplanung. Ohne Token-Transparenz können Kosten explodieren – mit Token-Bewusstsein sind KI-Anwendungen kalkulierbar und rentabel.