首个诚实的测试

此前,所有 AI 交易者基准测试都使用历史数据或模拟交易。HKUDS(香港大学)的研究人员更进一步,创建了 AI-Trader——首个让 AI 智能体用真实资金进行实时交易的基准测试。

每个智能体获得 10,000 美元,并在三个市场上拥有完全自主的交易决策权:

  • 美国股票 — 纽约证券交易所和纳斯达克的股票
  • 中国 A 股 — 上海和深圳交易所的股票
  • 加密货币 — 中心化交易所的加密货币

方法论

测试条件

  • 每个智能体完全自主运行——无人工干预
  • 测试期:3 个月实盘交易
  • 手续费、滑点、延迟——全部真实
  • 智能体可以访问市场数据、新闻和财务报告

评估指标

指标 描述
Total Return 期间总收益率
Sharpe Ratio 风险调整后收益
Max Drawdown 最大回撤
Win Rate 盈利交易的百分比
Faithfulness 智能体的行为与其解释的匹配程度

最后一个指标——Faithfulness——尤其有趣。它检验智能体是否真正按照其”思考”的方式行事。

初步结果

注:以下数字为示例性质,反映的是预估数据。原始研究测试的是 2025 年底可用的模型(GPT-4o、Claude 3.5 Sonnet 等)。

首轮测试结果(3 个月):

美国股票

智能体 收益率 夏普比率 最大回撤
GPT-4o Agent +8.2% 1.34 -6.1%
Claude 3.5 Sonnet Agent +7.8% 1.51 -4.3%
DeepSeek Agent +5.1% 0.89 -8.7%
S&P 500(基准) +6.3% 1.12 -5.5%

加密货币

智能体 收益率 夏普比率 最大回撤
GPT-4o Agent +12.4% 0.87 -18.2%
Claude 3.5 Sonnet Agent +9.1% 1.02 -11.5%
BTC Hold(基准) +15.1% 0.73 -22.4%

关键发现

  1. AI 智能体可以盈利 — 但不一定能打败简单的买入持有策略
  2. 最优智能体的夏普比率高于基准 — 它们在风险管理方面更出色
  3. 加密货币市场由于波动性被证明最具挑战性
  4. Faithfulness 是主要问题:智能体经常在事后”解释”其决策,而非基于其推理做出决策

为何重要

AI-Trader 是迈向 AI 交易者客观评估的第一步。在此之前,所有关于”盈利 AI 机器人”的说法都基于回测,而回测众所周知容易过拟合。

现在行业有了比较标准。初步结果表明:AI 交易者前景广阔,但远非完美

关注更新结果请访问项目网站