AI-Trader:首个使用真实资金的 AI 智能体实盘基准测试
首个诚实的测试
此前,所有 AI 交易者基准测试都使用历史数据或模拟交易。HKUDS(香港大学)的研究人员更进一步,创建了 AI-Trader——首个让 AI 智能体用真实资金进行实时交易的基准测试。
每个智能体获得 10,000 美元,并在三个市场上拥有完全自主的交易决策权:
- 美国股票 — 纽约证券交易所和纳斯达克的股票
- 中国 A 股 — 上海和深圳交易所的股票
- 加密货币 — 中心化交易所的加密货币
方法论
测试条件
- 每个智能体完全自主运行——无人工干预
- 测试期:3 个月实盘交易
- 手续费、滑点、延迟——全部真实
- 智能体可以访问市场数据、新闻和财务报告
评估指标
| 指标 | 描述 |
|---|---|
| Total Return | 期间总收益率 |
| Sharpe Ratio | 风险调整后收益 |
| Max Drawdown | 最大回撤 |
| Win Rate | 盈利交易的百分比 |
| Faithfulness | 智能体的行为与其解释的匹配程度 |
最后一个指标——Faithfulness——尤其有趣。它检验智能体是否真正按照其”思考”的方式行事。
初步结果
注:以下数字为示例性质,反映的是预估数据。原始研究测试的是 2025 年底可用的模型(GPT-4o、Claude 3.5 Sonnet 等)。
首轮测试结果(3 个月):
美国股票
| 智能体 | 收益率 | 夏普比率 | 最大回撤 |
|---|---|---|---|
| GPT-4o Agent | +8.2% | 1.34 | -6.1% |
| Claude 3.5 Sonnet Agent | +7.8% | 1.51 | -4.3% |
| DeepSeek Agent | +5.1% | 0.89 | -8.7% |
| S&P 500(基准) | +6.3% | 1.12 | -5.5% |
加密货币
| 智能体 | 收益率 | 夏普比率 | 最大回撤 |
|---|---|---|---|
| GPT-4o Agent | +12.4% | 0.87 | -18.2% |
| Claude 3.5 Sonnet Agent | +9.1% | 1.02 | -11.5% |
| BTC Hold(基准) | +15.1% | 0.73 | -22.4% |
关键发现
- AI 智能体可以盈利 — 但不一定能打败简单的买入持有策略
- 最优智能体的夏普比率高于基准 — 它们在风险管理方面更出色
- 加密货币市场由于波动性被证明最具挑战性
- Faithfulness 是主要问题:智能体经常在事后”解释”其决策,而非基于其推理做出决策
为何重要
AI-Trader 是迈向 AI 交易者客观评估的第一步。在此之前,所有关于”盈利 AI 机器人”的说法都基于回测,而回测众所周知容易过拟合。
现在行业有了比较标准。初步结果表明:AI 交易者前景广阔,但远非完美。
关注更新结果请访问项目网站。
讨论
加入我们的讨论 Telegram 群组!