Der Preiskrieg
Der LLM-API-Markt erlebt 2026 einen echten Preiskrieg. Im letzten Jahr sind die Inferenzkosten je nach Anbieter um das 2- bis 5-Fache gesunken. Schauen wir uns an, was die wichtigsten Modelle aktuell kosten und wie man die optimale Wahl trifft.
Preistabelle (März 2026)
Flaggschiff-Modelle
| Modell |
Input ($/1M) |
Output ($/1M) |
Cached Input |
Kontext |
| GPT-5.3 |
$8,00 |
$24,00 |
$2,00 |
128K |
| Claude Opus 4.6 |
$15,00 |
$75,00 |
$3,75 |
200K |
| Claude Sonnet 4.6 |
$3,00 |
$15,00 |
$0,75 |
256K |
| Gemini 3.1 Pro |
$3,50 |
$10,50 |
$0,88 |
1M |
| DeepSeek V3 |
$0,27 |
$1,10 |
$0,07 |
128K |
| Qwen 3 72B |
$0,40 |
$1,20 |
– |
128K |
Leichtgewichtige Modelle
| Modell |
Input ($/1M) |
Output ($/1M) |
Kontext |
| GPT-5.3 Mini |
$0,40 |
$1,60 |
128K |
| Claude Haiku 3.5 |
$0,80 |
$4,00 |
200K |
| Gemini 3.1 Flash |
$0,15 |
$0,60 |
1M |
| DeepSeek V3 Lite |
$0,07 |
$0,28 |
64K |
| Qwen 3 7B |
$0,05 |
$0,15 |
32K |
Reasoning-Modelle
| Modell |
Input ($/1M) |
Output ($/1M) |
| o3 |
$10,00 |
$40,00 |
| o4-mini |
$1,10 |
$4,40 |
| DeepSeek R1 |
$0,55 |
$2,19 |
| Claude Sonnet 4.6 (extended) |
$3,00 |
$15,00 |
Was es in der Praxis kostet
Szenario 1: Analyse eines Finanzberichts
- Dokumentgröße: ~30.000 Token (Input)
- Modellantwort: ~2.000 Token (Output)
| Modell |
Kosten pro Anfrage |
| GPT-5.3 |
$0,29 |
| Claude Sonnet 4.6 |
$0,12 |
| Gemini 3.1 Pro |
$0,13 |
| DeepSeek V3 |
$0,01 |
Szenario 2: Tägliche Nachrichtenanalyse (100 Artikel)
- Input: ~500.000 Token/Tag
- Output: ~50.000 Token/Tag
| Modell |
Kosten/Tag |
Kosten/Monat |
| GPT-5.3 |
$5,20 |
$156 |
| Claude Sonnet 4.6 |
$2,25 |
$67,50 |
| Gemini 3.1 Pro |
$2,28 |
$68,25 |
| DeepSeek V3 |
$0,19 |
$5,64 |
Szenario 3: Agentisches Handelssystem (24/7)
- Anfragen pro Tag: ~1.000
- Durchschnittlicher Input: 10.000 Token
- Durchschnittlicher Output: 1.000 Token
- Monatlich: 300M Input + 30M Output
| Modell |
Kosten/Monat |
| GPT-5.3 |
$3.120 |
| Claude Opus 4.6 |
$6.750 |
| Claude Sonnet 4.6 |
$1.350 |
| Gemini 3.1 Pro |
$1.365 |
| DeepSeek V3 |
$114 |
Versteckte Kosten
Der Preis pro Token ist nicht der einzige Faktor:
Rate Limits
- OpenAI: 500-10.000 RPM (je nach Tarif)
- Anthropic: 1.000-4.000 RPM
- Google: bis zu 60.000 RPM
- DeepSeek: Drosselung bei hoher Last
Latenz
- GPT-5.3: ~800 ms TTFT
- Claude Sonnet 4.6: ~600 ms TTFT
- Gemini 3.1 Pro: ~500 ms TTFT
- DeepSeek V3: ~1.200 ms TTFT (aufgrund der Server-Geographie)
Zuverlässigkeit (Uptime)
- OpenAI: 99,8 % (gelegentliche Vorfälle)
- Anthropic: 99,9 %
- Google: 99,95 %
- DeepSeek: 99,5 % (junge Infrastruktur)
Empfehlungen
| Anwendungsfall |
Beste Wahl |
Grund |
| Massenhafte Datenanalyse |
DeepSeek V3 |
Preis |
| Geschäftskritische Entscheidungen |
Claude Opus 4.6 |
Qualität |
| Programmierung |
Claude Sonnet 4.6 |
SWE-Bench |
| Langer Kontext |
Gemini 3.1 Pro |
1M Token |
| Budget-Option |
Qwen 3 7B (selbst gehostet) |
Kostenlos |
Die Preise fallen weiter. Was heute 100 $/Monat kostet, könnte in einem Jahr 20 $ kosten. Planen Sie Ihre Infrastruktur mit diesem Trend im Hinterkopf.
Diskussion
Diskutieren Sie mit in unserem Telegram-Chat!