Ценовая война
Рынок LLM API в 2026 году переживает настоящую ценовую войну. За последний год стоимость инференса упала в 2-5 раз в зависимости от провайдера. Разбираемся, сколько сейчас стоят основные модели и как выбрать оптимальный вариант.
Таблица цен (март 2026)
Флагманские модели
| Модель |
Input ($/1M) |
Output ($/1M) |
Cached Input |
Контекст |
| GPT-5.3 |
$8.00 |
$24.00 |
$2.00 |
128K |
| Claude Opus 4.6 |
$15.00 |
$75.00 |
$3.75 |
200K |
| Claude Sonnet 4.6 |
$3.00 |
$15.00 |
$0.75 |
256K |
| Gemini 3.1 Pro |
$3.50 |
$10.50 |
$0.88 |
1M |
| DeepSeek V3 |
$0.27 |
$1.10 |
$0.07 |
128K |
| Qwen 3 72B |
$0.40 |
$1.20 |
— |
128K |
Лёгкие модели
| Модель |
Input ($/1M) |
Output ($/1M) |
Контекст |
| GPT-5.3 Mini |
$0.40 |
$1.60 |
128K |
| Claude Haiku 3.5 |
$0.80 |
$4.00 |
200K |
| Gemini 3.1 Flash |
$0.15 |
$0.60 |
1M |
| DeepSeek V3 Lite |
$0.07 |
$0.28 |
64K |
| Qwen 3 7B |
$0.05 |
$0.15 |
32K |
Reasoning-модели
| Модель |
Input ($/1M) |
Output ($/1M) |
| o3 |
$10.00 |
$40.00 |
| o4-mini |
$1.10 |
$4.40 |
| DeepSeek R1 |
$0.55 |
$2.19 |
| Claude Sonnet 4.6 (extended) |
$3.00 |
$15.00 |
Сколько это стоит на практике
Сценарий 1: Анализ одного финансового отчёта
- Размер документа: ~30 000 токенов (input)
- Ответ модели: ~2 000 токенов (output)
| Модель |
Стоимость запроса |
| GPT-5.3 |
$0.29 |
| Claude Sonnet 4.6 |
$0.12 |
| Gemini 3.1 Pro |
$0.13 |
| DeepSeek V3 |
$0.01 |
Сценарий 2: Ежедневный анализ новостей (100 статей)
- Input: ~500 000 токенов/день
- Output: ~50 000 токенов/день
| Модель |
Стоимость/день |
Стоимость/месяц |
| GPT-5.3 |
$5.20 |
$156 |
| Claude Sonnet 4.6 |
$2.25 |
$67.50 |
| Gemini 3.1 Pro |
$2.28 |
$68.25 |
| DeepSeek V3 |
$0.19 |
$5.64 |
Сценарий 3: Агентская торговая система (24/7)
- Запросов в день: ~1 000
- Средний input: 10 000 токенов
- Средний output: 1 000 токенов
- В месяц: 300M input + 30M output
| Модель |
Стоимость/месяц |
| GPT-5.3 |
$3,120 |
| Claude Opus 4.6 |
$6,750 |
| Claude Sonnet 4.6 |
$1,350 |
| Gemini 3.1 Pro |
$1,365 |
| DeepSeek V3 |
$114 |
Скрытые расходы
Цена за токен — не единственный фактор:
Rate limits
- OpenAI: 500-10 000 RPM (зависит от тарифа)
- Anthropic: 1 000-4 000 RPM
- Google: до 60 000 RPM
- DeepSeek: ограничения при высокой нагрузке
Задержка (latency)
- GPT-5.3: ~800ms TTFT
- Claude Sonnet 4.6: ~600ms TTFT
- Gemini 3.1 Pro: ~500ms TTFT
- DeepSeek V3: ~1200ms TTFT (из-за географии серверов)
Надёжность (uptime)
- OpenAI: 99.8% (случаются инциденты)
- Anthropic: 99.9%
- Google: 99.95%
- DeepSeek: 99.5% (молодая инфраструктура)
Рекомендации
| Задача |
Лучший выбор |
Причина |
| Массовый анализ данных |
DeepSeek V3 |
Цена |
| Критически важные решения |
Claude Opus 4.6 |
Качество |
| Кодинг |
Claude Sonnet 4.6 |
SWE-Bench |
| Длинный контекст |
Gemini 3.1 Pro |
1M токенов |
| Бюджетный вариант |
Qwen 3 7B (self-hosted) |
Бесплатно |
Цены продолжают падать. То, что сегодня стоит $100/месяц, через год может стоить $20. Планируйте инфраструктуру с учётом этого тренда.
Обсуждение
Присоединяйтесь к обсуждению в нашем Telegram-чате!