La guerra de precios

El mercado de API de LLM en 2026 está viviendo una auténtica guerra de precios. En el último año, el coste de inferencia ha caído entre 2 y 5 veces según el proveedor. Veamos cuánto cuestan ahora los principales modelos y cómo elegir la mejor opción.

Tabla de precios (marzo 2026)

Modelos insignia

Modelo Input ($/1M) Output ($/1M) Input cacheado Contexto
GPT-5.3 $8,00 $24,00 $2,00 128K
Claude Opus 4.6 $15,00 $75,00 $3,75 200K
Claude Sonnet 4.6 $3,00 $15,00 $0,75 256K
Gemini 3.1 Pro $3,50 $10,50 $0,88 1M
DeepSeek V3 $0,27 $1,10 $0,07 128K
Qwen 3 72B $0,40 $1,20 128K

Modelos ligeros

Modelo Input ($/1M) Output ($/1M) Contexto
GPT-5.3 Mini $0,40 $1,60 128K
Claude Haiku 3.5 $0,80 $4,00 200K
Gemini 3.1 Flash $0,15 $0,60 1M
DeepSeek V3 Lite $0,07 $0,28 64K
Qwen 3 7B $0,05 $0,15 32K

Modelos de razonamiento

Modelo Input ($/1M) Output ($/1M)
o3 $10,00 $40,00
o4-mini $1,10 $4,40
DeepSeek R1 $0,55 $2,19
Claude Sonnet 4.6 (extended) $3,00 $15,00

Cuánto cuesta en la práctica

Escenario 1: Análisis de un informe financiero

  • Tamaño del documento: ~30.000 tokens (input)
  • Respuesta del modelo: ~2.000 tokens (output)
Modelo Coste por solicitud
GPT-5.3 $0,29
Claude Sonnet 4.6 $0,12
Gemini 3.1 Pro $0,13
DeepSeek V3 $0,01

Escenario 2: Análisis diario de noticias (100 artículos)

  • Input: ~500.000 tokens/día
  • Output: ~50.000 tokens/día
Modelo Coste/día Coste/mes
GPT-5.3 $5,20 $156
Claude Sonnet 4.6 $2,25 $67,50
Gemini 3.1 Pro $2,28 $68,25
DeepSeek V3 $0,19 $5,64

Escenario 3: Sistema de trading con agentes (24/7)

  • Solicitudes por día: ~1.000
  • Input medio: 10.000 tokens
  • Output medio: 1.000 tokens
  • Mensual: 300M input + 30M output
Modelo Coste/mes
GPT-5.3 $3.120
Claude Opus 4.6 $6.750
Claude Sonnet 4.6 $1.350
Gemini 3.1 Pro $1.365
DeepSeek V3 $114

Costes ocultos

El precio por token no es el único factor:

Límites de velocidad (Rate limits)

  • OpenAI: 500-10.000 RPM (según el plan)
  • Anthropic: 1.000-4.000 RPM
  • Google: hasta 60.000 RPM
  • DeepSeek: limitaciones bajo carga alta

Latencia

  • GPT-5.3: ~800ms TTFT
  • Claude Sonnet 4.6: ~600ms TTFT
  • Gemini 3.1 Pro: ~500ms TTFT
  • DeepSeek V3: ~1200ms TTFT (por la geografía de servidores)

Fiabilidad (Uptime)

  • OpenAI: 99,8% (incidentes ocasionales)
  • Anthropic: 99,9%
  • Google: 99,95%
  • DeepSeek: 99,5% (infraestructura joven)

Recomendaciones

Caso de uso Mejor opción Razón
Análisis masivo de datos DeepSeek V3 Precio
Decisiones críticas Claude Opus 4.6 Calidad
Programación Claude Sonnet 4.6 SWE-Bench
Contexto largo Gemini 3.1 Pro 1M tokens
Opción económica Qwen 3 7B (autoalojado) Gratis

Los precios siguen bajando. Lo que hoy cuesta 100 $/mes podría costar 20 $ dentro de un año. Planifica tu infraestructura teniendo en cuenta esta tendencia.