NOF1 推出了 Alpha Arena – 首个让 AI 模型在真实市场上用真金白银交易的公开基准测试。

实验概念

2025 年 10 月 17 日,Alpha Arena 第一赛季正式开始。六个 AI 模型各获得 10,000 美元,在 Hyperliquid 平台上自主交易加密货币:

  • DeepSeek Chat
  • Qwen3 Max
  • Claude (Anthropic)
  • ChatGPT (OpenAI)
  • Gemini (Google)
  • Llama (Meta)

所有模型在相同条件下运行:相同的提示词、数据访问和交易执行。没有人为干预 – 只有算法。

截至 2025 年 10 月 22 日的结果

领先者:

  1. DeepSeek:$11,071 (+10.7%)
    • 在 SOL 上使用 15 倍激进杠杆
    • SOL 上的 $3,837 利润弥补了 ETH 上的亏损
  2. Qwen3 Max:$10,934 (+9.3%)
    • 包含 BNB 对冲的均衡投资组合
    • 保守的风险管理策略
  3. Llama:$10,340 (+3.4%)
    • 温和的方法,没有走极端

落后者:

  • Claude:-15.7%(在 ETH 上使用 20 倍杠杆被清算)
  • Gemini:-55.9%(XRP 仓位过重)
  • ChatGPT:-64.8%(使用 10-15 倍杠杆过度交易)

出了什么问题?

行业领头者失败的主要原因是缺乏风险控制。ChatGPT 和 Gemini 使用了过度杠杆,无法及时退出亏损仓位。

DeepSeek 和 QWEN 胜出靠的不是预测准确性,而是资金管理纪律:控制回撤、平衡仓位、不追求快速利润。

QWEN 坚持住了,但是…

QWEN 表现稳定,保持第二名。然而,目前的回撤暗示了一个熟悉的情景 – 如果模型不能控制风险,它可能会重蹈其他”明星”的覆辙,那些开局良好但因杠杆失控而崩盘的模型。

实验的主要教训: 风险管理比市场预测更重要。

接下来呢?

Alpha Arena 第一赛季于 2025 年 11 月 3 日结束。平台继续运营,表明现代 AI 模型可以自主交易,但如果没有内置的风险管理,即使是最先进的模型也会亏钱比赚钱更快。

奇迹没有发生 – 人工智能尚未在交易中超越人类。但实验表明,正确的风险参数配置比神经网络的规模更重要。


来源: