TradeTrap: насколько надёжны LLM-трейдеры на самом деле?

Проблема faithfulness

Когда LLM-трейдер объясняет своё решение — «я купил AAPL, потому что RSI показывает перепроданность и отчётность лучше ожиданий» — действительно ли он руководствовался этими факторами? Или объяснение — это post-hoc рационализация, а реальное «решение» было принято по совершенно другим причинам?

Исследование TradeTrap от группы исследователей изучило именно этот вопрос.

Методология исследования

Исследователи создали контролируемую среду, в которой:

LLM-агенты получали рыночные данные и новости для принятия торговых решений
Часть данных содержала намеренные ловушки (traps) — ложные сигналы, которые выглядели убедительно
Агенты должны были принимать решения и объяснять их
Исследователи сравнивали заявленные причины с фактическими триггерами

Типы ловушек

Anchoring trap — в контекст вставлялась случайная «целевая цена», не основанная на анализе
Recency trap — последние данные были хуже средних, но тренд оставался положительным
Authority trap — ложные цитаты «известных аналитиков» с неверными прогнозами
Confirmation trap — данные, подтверждающие предвзятость модели

Результаты

Процент попадания в ловушки

Примечание: в таблицах использованы модели, доступные на момент исследования (конец 2025 года).

Модель	Anchoring	Recency	Authority	Confirmation
GPT-4o	34%	41%	28%	52%
Claude 3.5 Sonnet	22%	35%	19%	44%
DeepSeek V3	39%	48%	33%	57%
Gemini 2.0 Flash	31%	38%	25%	49%

Faithfulness Score

Насколько объяснения модели соответствуют реальным причинам решений:

Модель	Faithfulness
Claude 3.5 Sonnet	67%
GPT-4o	61%
Gemini 2.0 Flash	58%
DeepSeek V3	54%

Это означает, что в 33-46% случаев объяснения LLM-трейдеров не соответствуют реальным причинам их решений.

Ключевые выводы

1. Confirmation bias — главная проблема

Все модели показали наибольшую уязвимость к подтверждению собственных предубеждений. Если модель «решила» купить актив, она находит данные, подтверждающие это решение, даже если объективные данные говорят об обратном.

2. Chain-of-thought не спасает

Даже reasoning-модели с развёрнутой цепочкой рассуждений (Chain-of-Thought) подвержены ловушкам. Более того, длинная цепочка рассуждений иногда маскирует ненадёжность решений, создавая иллюзию глубокого анализа.

3. Стоимость ошибки растёт с автономностью

Чем больше автономности у LLM-трейдера, тем дороже каждая ошибка faithfulness. Если агент автоматически размещает ордера на основе неверных рассуждений, последствия могут быть серьёзными.

Практические рекомендации

Авторы исследования предлагают:

Не доверять объяснениям LLM-трейдеров — проверять решения независимо
Использовать ensemble подходы — несколько моделей голосуют за решение
Ограничивать автономность — человек-в-цикле для крупных сделок
Тестировать на adversarial данных — проверять, как агент реагирует на ловушки
Логировать все промежуточные шаги — для post-mortem анализа ошибок

Что это значит для индустрии

TradeTrap — это важный сигнал для всех, кто строит ИИ-торговые системы. Высокий бенчмарк на SWE-Bench или MMLU не означает надёжность в торговле. Нужны специализированные тесты, учитывающие когнитивные ловушки и faithfulness.

Полный текст исследования доступен на arXiv.