Robots de IA en el mercado real: que nos ensena Alpha Arena y otros benchmarks

Hace dos semanas analice la arquitectura de robots open-source. Logica clasica: indicadores, senales, if-then.

Hoy — sobre IA que toma decisiones de trading por si misma. Sin indicadores. Sin reglas. Solo: “aqui tienes $10.000, opera.”

En octubre-noviembre de 2025 se celebro Alpha Arena — el primer benchmark publico de traders IA con dinero real.

Seis LLMs (ChatGPT, Claude, Gemini, Qwen 3 MAX, DeepSeek, Grok) recibieron $10.000 cada uno y operaron criptomonedas en Hyperliquid DEX durante dos semanas.

Los resultados fueron impactantes: los modelos chinos aplastaron a los occidentales. Qwen 3 MAX gano. ChatGPT y Gemini perdieron mas del 60% de su capital.

Resultados

Modelo	Capital final	Cambio	Max Drawdown	Operaciones	Sharpe
Qwen 3 MAX	$13.247	+32,5%	-12%	43	1,8
DeepSeek	$12.891	+28,9%	-15%	67	1,5
Claude	$11.204	+12,0%	-18%	89	0,9
Grok	$9.687	-3,1%	-22%	124	0,2
ChatGPT	$3.845	-61,6%	-68%	203	-1,2
Gemini	$3.412	-65,9%	-71%	187	-1,4

Por que ganaron los modelos chinos

1. Disciplina: Qwen hizo 43 operaciones, apalancamiento max 2x. ChatGPT hizo 203 operaciones, apalancamiento hasta 10x.

2. Adaptacion a volatilidad: DeepSeek redujo posiciones en periodos volatiles. Gemini ignoro la volatilidad.

3. Datos de entrenamiento: Entrenados en mercados chinos donde la alta volatilidad es la norma.

Lecciones para algotraders

La frecuencia de trading mata — mas operaciones = peores resultados
El apalancamiento amplifica errores — si no esta probado, mantener <3x
La adaptacion es mas importante que la optimizacion
El win rate esta sobrevalorado, el R/R esta infravalorado
Las comisiones son un gasto real

Que significa para el futuro

Los LLM deben usarse como herramientas (sentimiento, ideas, debugging), no como traders autonomos. Enfoque hibrido: combinar indicadores clasicos con contexto LLM. Los LLM chinos entran en escena: DeepSeek es open-source y 10x mas barato que ChatGPT.

Enlaces utiles: