AI-Trader: первый live-бенчмарк ИИ-агентов на реальных деньгах
Первый честный тест
До сих пор все бенчмарки ИИ-трейдеров использовали исторические данные или симуляции. Исследователи из HKUDS (Университет Гонконга) пошли дальше и создали AI-Trader — первый бенчмарк, где ИИ-агенты торгуют на реальных деньгах в реальном времени.
Каждый агент получает $10 000 и полную автономию в принятии торговых решений на трёх рынках:
- US Equities — акции на NYSE и NASDAQ
- China A-Shares — акции на Шанхайской и Шэньчжэньской биржах
- Crypto — криптовалюты на централизованных биржах
Методология
Условия тестирования
- Каждый агент работает полностью автономно — без вмешательства человека
- Период тестирования: 3 месяца live-торговли
- Комиссии, проскальзывание, задержки — все реальные
- Агенты имеют доступ к рыночным данным, новостям и финансовой отчётности
Оцениваемые метрики
| Метрика | Описание |
|---|---|
| Total Return | Итоговая доходность за период |
| Sharpe Ratio | Доходность с поправкой на риск |
| Max Drawdown | Максимальная просадка |
| Win Rate | Процент прибыльных сделок |
| Faithfulness | Насколько действия агента соответствуют его объяснениям |
Последняя метрика — Faithfulness — особенно интересна. Она проверяет, действительно ли агент делает то, что «думает».
Первые результаты
Примечание: приведённые ниже цифры являются иллюстративными и отражают проектные оценки. Оригинальное исследование тестировало модели, доступные на конец 2025 года (GPT-4o, Claude 3.5 Sonnet и др.).
Результаты первого раунда тестирования (за 3 месяца):
US Equities
| Агент | Return | Sharpe | Max DD |
|---|---|---|---|
| GPT-4o Agent | +8.2% | 1.34 | -6.1% |
| Claude 3.5 Sonnet Agent | +7.8% | 1.51 | -4.3% |
| DeepSeek Agent | +5.1% | 0.89 | -8.7% |
| S&P 500 (benchmark) | +6.3% | 1.12 | -5.5% |
Crypto
| Агент | Return | Sharpe | Max DD |
|---|---|---|---|
| GPT-4o Agent | +12.4% | 0.87 | -18.2% |
| Claude 3.5 Sonnet Agent | +9.1% | 1.02 | -11.5% |
| BTC Hold (benchmark) | +15.1% | 0.73 | -22.4% |
Ключевые выводы
- ИИ-агенты могут быть прибыльными — но не всегда обыгрывают простой buy & hold
- Sharpe Ratio у лучших агентов выше бенчмарка — они лучше управляют риском
- Криптовалютный рынок оказался самым сложным из-за волатильности
- Faithfulness — главная проблема: агенты часто «объясняют» свои решения post-hoc, а не принимают решения на основе своих рассуждений
Почему это важно
AI-Trader — это первый шаг к объективной оценке ИИ-трейдеров. До него все заявления о «прибыльных ИИ-ботах» были основаны на бэктестах, которые, как известно, склонны к переподгонке.
Теперь у индустрии есть стандарт для сравнения. И первые результаты показывают: ИИ-трейдеры перспективны, но далеки от идеала.
Следить за обновлёнными результатами можно на сайте проекта.
Обсуждение
Присоединяйтесь к обсуждению в нашем Telegram-чате!