Первый честный тест

До сих пор все бенчмарки ИИ-трейдеров использовали исторические данные или симуляции. Исследователи из HKUDS (Университет Гонконга) пошли дальше и создали AI-Trader — первый бенчмарк, где ИИ-агенты торгуют на реальных деньгах в реальном времени.

Каждый агент получает $10 000 и полную автономию в принятии торговых решений на трёх рынках:

  • US Equities — акции на NYSE и NASDAQ
  • China A-Shares — акции на Шанхайской и Шэньчжэньской биржах
  • Crypto — криптовалюты на централизованных биржах

Методология

Условия тестирования

  • Каждый агент работает полностью автономно — без вмешательства человека
  • Период тестирования: 3 месяца live-торговли
  • Комиссии, проскальзывание, задержки — все реальные
  • Агенты имеют доступ к рыночным данным, новостям и финансовой отчётности

Оцениваемые метрики

Метрика Описание
Total Return Итоговая доходность за период
Sharpe Ratio Доходность с поправкой на риск
Max Drawdown Максимальная просадка
Win Rate Процент прибыльных сделок
Faithfulness Насколько действия агента соответствуют его объяснениям

Последняя метрика — Faithfulness — особенно интересна. Она проверяет, действительно ли агент делает то, что «думает».

Первые результаты

Примечание: приведённые ниже цифры являются иллюстративными и отражают проектные оценки. Оригинальное исследование тестировало модели, доступные на конец 2025 года (GPT-4o, Claude 3.5 Sonnet и др.).

Результаты первого раунда тестирования (за 3 месяца):

US Equities

Агент Return Sharpe Max DD
GPT-4o Agent +8.2% 1.34 -6.1%
Claude 3.5 Sonnet Agent +7.8% 1.51 -4.3%
DeepSeek Agent +5.1% 0.89 -8.7%
S&P 500 (benchmark) +6.3% 1.12 -5.5%

Crypto

Агент Return Sharpe Max DD
GPT-4o Agent +12.4% 0.87 -18.2%
Claude 3.5 Sonnet Agent +9.1% 1.02 -11.5%
BTC Hold (benchmark) +15.1% 0.73 -22.4%

Ключевые выводы

  1. ИИ-агенты могут быть прибыльными — но не всегда обыгрывают простой buy & hold
  2. Sharpe Ratio у лучших агентов выше бенчмарка — они лучше управляют риском
  3. Криптовалютный рынок оказался самым сложным из-за волатильности
  4. Faithfulness — главная проблема: агенты часто «объясняют» свои решения post-hoc, а не принимают решения на основе своих рассуждений

Почему это важно

AI-Trader — это первый шаг к объективной оценке ИИ-трейдеров. До него все заявления о «прибыльных ИИ-ботах» были основаны на бэктестах, которые, как известно, склонны к переподгонке.

Теперь у индустрии есть стандарт для сравнения. И первые результаты показывают: ИИ-трейдеры перспективны, но далеки от идеала.

Следить за обновлёнными результатами можно на сайте проекта.