TradeTrap: ¿cuán fiables son realmente los traders LLM?
El problema de la faithfulness
Cuando un trader LLM explica su decisión – “compré AAPL porque el RSI muestra sobreventa y los resultados superaron las expectativas” – ¿realmente se basó en esos factores? ¿O la explicación es una racionalización a posteriori, y la “decisión” real se tomó por motivos completamente diferentes?
El estudio TradeTrap de un grupo de investigadores examinó precisamente esta cuestión.
Metodología de la investigación
Los investigadores crearon un entorno controlado en el que:
- Los agentes LLM recibían datos de mercado y noticias para tomar decisiones de trading
- Parte de los datos contenían trampas intencionales – señales falsas que parecían convincentes
- Los agentes debían tomar decisiones y explicarlas
- Los investigadores compararon las razones declaradas con los desencadenantes reales
Tipos de trampas
- Trampa de anclaje – se insertaba un “precio objetivo” aleatorio en el contexto, sin base analítica
- Trampa de recencia – los datos recientes eran peores que la media, pero la tendencia seguía siendo positiva
- Trampa de autoridad – citas falsas de “analistas reconocidos” con pronósticos incorrectos
- Trampa de confirmación – datos que confirmaban el sesgo preexistente del modelo
Resultados
Tasa de caída en trampas
Nota: las tablas utilizan modelos disponibles en el momento del estudio (finales de 2025).
| Modelo | Anclaje | Recencia | Autoridad | Confirmación |
|---|---|---|---|---|
| GPT-4o | 34% | 41% | 28% | 52% |
| Claude 3.5 Sonnet | 22% | 35% | 19% | 44% |
| DeepSeek V3 | 39% | 48% | 33% | 57% |
| Gemini 2.0 Flash | 31% | 38% | 25% | 49% |
Puntuación de Faithfulness
Cuánto coinciden las explicaciones del modelo con las razones reales de sus decisiones:
| Modelo | Faithfulness |
|---|---|
| Claude 3.5 Sonnet | 67% |
| GPT-4o | 61% |
| Gemini 2.0 Flash | 58% |
| DeepSeek V3 | 54% |
Esto significa que en el 33-46% de los casos, las explicaciones de los traders LLM no corresponden a las razones reales de sus decisiones.
Conclusiones clave
1. El sesgo de confirmación es el mayor problema
Todos los modelos mostraron la mayor vulnerabilidad a confirmar sus propios prejuicios. Si un modelo “decidió” comprar un activo, encuentra datos que respaldan esa decisión, incluso cuando los datos objetivos dicen lo contrario.
2. El Chain-of-Thought no salva
Incluso los modelos de razonamiento con cadenas de pensamiento (Chain-of-Thought) detalladas son susceptibles a las trampas. Es más, una cadena de razonamiento larga a veces enmascara la falta de fiabilidad de las decisiones, creando la ilusión de un análisis profundo.
3. El coste de los errores crece con la autonomía
Cuanta más autonomía tiene un trader LLM, más caro resulta cada error de faithfulness. Si el agente coloca órdenes automáticamente basándose en razonamientos incorrectos, las consecuencias pueden ser graves.
Recomendaciones prácticas
Los autores del estudio sugieren:
- No confiar en las explicaciones de los traders LLM – verificar las decisiones de forma independiente
- Usar enfoques de ensemble – varios modelos votan sobre una decisión
- Limitar la autonomía – humano en el bucle para operaciones grandes
- Probar con datos adversariales – comprobar cómo reacciona el agente ante trampas
- Registrar todos los pasos intermedios – para análisis post-mortem de errores
Qué significa para la industria
TradeTrap es una señal importante para todos los que construyen sistemas de trading con IA. Un buen resultado en SWE-Bench o MMLU no significa fiabilidad en el trading. Se necesitan pruebas especializadas que contemplen trampas cognitivas y faithfulness.
El texto completo del estudio está disponible en arXiv.
Discusión
Únete a la discusión en nuestro chat de Telegram!