OS

OS Engine

AI-Trader：首个使用真实资金的 AI 智能体实盘基准测试

18 March 2026 • 1 分钟阅读

AI-Trader：首个使用真实资金的 AI 智能体实盘基准测试

首个诚实的测试

此前，所有 AI 交易者基准测试都使用历史数据或模拟交易。HKUDS（香港大学）的研究人员更进一步，创建了 AI-Trader——首个让 AI 智能体用真实资金进行实时交易的基准测试。

每个智能体获得 10,000 美元，并在三个市场上拥有完全自主的交易决策权：

美国股票 — 纽约证券交易所和纳斯达克的股票
中国 A 股 — 上海和深圳交易所的股票
加密货币 — 中心化交易所的加密货币

方法论

测试条件

每个智能体完全自主运行——无人工干预
测试期：3 个月实盘交易
手续费、滑点、延迟——全部真实
智能体可以访问市场数据、新闻和财务报告

评估指标

指标	描述
Total Return	期间总收益率
Sharpe Ratio	风险调整后收益
Max Drawdown	最大回撤
Win Rate	盈利交易的百分比
Faithfulness	智能体的行为与其解释的匹配程度

最后一个指标——Faithfulness——尤其有趣。它检验智能体是否真正按照其”思考”的方式行事。

初步结果

注：以下数字为示例性质，反映的是预估数据。原始研究测试的是 2025 年底可用的模型（GPT-4o、Claude 3.5 Sonnet 等）。

首轮测试结果（3 个月）：

美国股票

智能体	收益率	夏普比率	最大回撤
GPT-4o Agent	+8.2%	1.34	-6.1%
Claude 3.5 Sonnet Agent	+7.8%	1.51	-4.3%
DeepSeek Agent	+5.1%	0.89	-8.7%
S&P 500（基准）	+6.3%	1.12	-5.5%

加密货币

智能体	收益率	夏普比率	最大回撤
GPT-4o Agent	+12.4%	0.87	-18.2%
Claude 3.5 Sonnet Agent	+9.1%	1.02	-11.5%
BTC Hold（基准）	+15.1%	0.73	-22.4%

关键发现

AI 智能体可以盈利 — 但不一定能打败简单的买入持有策略
最优智能体的夏普比率高于基准 — 它们在风险管理方面更出色
加密货币市场由于波动性被证明最具挑战性
Faithfulness 是主要问题：智能体经常在事后”解释”其决策，而非基于其推理做出决策

为何重要

AI-Trader 是迈向 AI 交易者客观评估的第一步。在此之前，所有关于”盈利 AI 机器人”的说法都基于回测，而回测众所周知容易过拟合。

现在行业有了比较标准。初步结果表明：AI 交易者前景广阔，但远非完美。

关注更新结果请访问项目网站。

标签： AI benchmark trading AI-Trader

相关文章

讨论

加入我们的讨论 Telegram 群组!