Der Preiskrieg

Der LLM-API-Markt erlebt 2026 einen echten Preiskrieg. Im letzten Jahr sind die Inferenzkosten je nach Anbieter um das 2- bis 5-Fache gesunken. Schauen wir uns an, was die wichtigsten Modelle aktuell kosten und wie man die optimale Wahl trifft.

Preistabelle (März 2026)

Flaggschiff-Modelle

Modell Input ($/1M) Output ($/1M) Cached Input Kontext
GPT-5.3 $8,00 $24,00 $2,00 128K
Claude Opus 4.6 $15,00 $75,00 $3,75 200K
Claude Sonnet 4.6 $3,00 $15,00 $0,75 256K
Gemini 3.1 Pro $3,50 $10,50 $0,88 1M
DeepSeek V3 $0,27 $1,10 $0,07 128K
Qwen 3 72B $0,40 $1,20 128K

Leichtgewichtige Modelle

Modell Input ($/1M) Output ($/1M) Kontext
GPT-5.3 Mini $0,40 $1,60 128K
Claude Haiku 3.5 $0,80 $4,00 200K
Gemini 3.1 Flash $0,15 $0,60 1M
DeepSeek V3 Lite $0,07 $0,28 64K
Qwen 3 7B $0,05 $0,15 32K

Reasoning-Modelle

Modell Input ($/1M) Output ($/1M)
o3 $10,00 $40,00
o4-mini $1,10 $4,40
DeepSeek R1 $0,55 $2,19
Claude Sonnet 4.6 (extended) $3,00 $15,00

Was es in der Praxis kostet

Szenario 1: Analyse eines Finanzberichts

  • Dokumentgröße: ~30.000 Token (Input)
  • Modellantwort: ~2.000 Token (Output)
Modell Kosten pro Anfrage
GPT-5.3 $0,29
Claude Sonnet 4.6 $0,12
Gemini 3.1 Pro $0,13
DeepSeek V3 $0,01

Szenario 2: Tägliche Nachrichtenanalyse (100 Artikel)

  • Input: ~500.000 Token/Tag
  • Output: ~50.000 Token/Tag
Modell Kosten/Tag Kosten/Monat
GPT-5.3 $5,20 $156
Claude Sonnet 4.6 $2,25 $67,50
Gemini 3.1 Pro $2,28 $68,25
DeepSeek V3 $0,19 $5,64

Szenario 3: Agentisches Handelssystem (24/7)

  • Anfragen pro Tag: ~1.000
  • Durchschnittlicher Input: 10.000 Token
  • Durchschnittlicher Output: 1.000 Token
  • Monatlich: 300M Input + 30M Output
Modell Kosten/Monat
GPT-5.3 $3.120
Claude Opus 4.6 $6.750
Claude Sonnet 4.6 $1.350
Gemini 3.1 Pro $1.365
DeepSeek V3 $114

Versteckte Kosten

Der Preis pro Token ist nicht der einzige Faktor:

Rate Limits

  • OpenAI: 500-10.000 RPM (je nach Tarif)
  • Anthropic: 1.000-4.000 RPM
  • Google: bis zu 60.000 RPM
  • DeepSeek: Drosselung bei hoher Last

Latenz

  • GPT-5.3: ~800 ms TTFT
  • Claude Sonnet 4.6: ~600 ms TTFT
  • Gemini 3.1 Pro: ~500 ms TTFT
  • DeepSeek V3: ~1.200 ms TTFT (aufgrund der Server-Geographie)

Zuverlässigkeit (Uptime)

  • OpenAI: 99,8 % (gelegentliche Vorfälle)
  • Anthropic: 99,9 %
  • Google: 99,95 %
  • DeepSeek: 99,5 % (junge Infrastruktur)

Empfehlungen

Anwendungsfall Beste Wahl Grund
Massenhafte Datenanalyse DeepSeek V3 Preis
Geschäftskritische Entscheidungen Claude Opus 4.6 Qualität
Programmierung Claude Sonnet 4.6 SWE-Bench
Langer Kontext Gemini 3.1 Pro 1M Token
Budget-Option Qwen 3 7B (selbst gehostet) Kostenlos

Die Preise fallen weiter. Was heute 100 $/Monat kostet, könnte in einem Jahr 20 $ kosten. Planen Sie Ihre Infrastruktur mit diesem Trend im Hinterkopf.