Vor zwei Wochen habe ich die Architektur von Open-Source-Robotern analysiert. Klassische Logik: Indikatoren, Signale, If-Then.

Heute — ueber KI, die Handelsentscheidungen selbst trifft. Keine Indikatoren. Keine Regeln. Nur: “Hier sind $10.000, handle.”

Im Oktober-November 2025 fand Alpha Arena statt — der erste oeffentliche Benchmark von KI-Tradern mit echtem Geld.

Sechs LLMs (ChatGPT, Claude, Gemini, Qwen 3 MAX, DeepSeek, Grok) erhielten jeweils $10.000 und handelten Kryptowaehrungen auf Hyperliquid DEX fuer zwei Wochen.

Die Ergebnisse waren schockierend: Chinesische Modelle zerlegten die westlichen. Qwen 3 MAX gewann. ChatGPT und Gemini verloren ueber 60% ihres Kapitals.

Ergebnisse

Modell Endkapital Veraenderung Max Drawdown Trades Sharpe
Qwen 3 MAX $13.247 +32,5% -12% 43 1,8
DeepSeek $12.891 +28,9% -15% 67 1,5
Claude $11.204 +12,0% -18% 89 0,9
Grok $9.687 -3,1% -22% 124 0,2
ChatGPT $3.845 -61,6% -68% 203 -1,2
Gemini $3.412 -65,9% -71% 187 -1,4

Warum chinesische Modelle gewannen

1. Disziplin: Qwen machte 43 Trades, Hebel max 2x. ChatGPT machte 203 Trades, Hebel bis 10x.

2. Volatilitaetsanpassung: DeepSeek reduzierte Positionen in volatilen Phasen. Gemini ignorierte Volatilitaet.

3. Trainingsdaten: Trainiert auf chinesischen Marktdaten, wo hohe Volatilitaet die Norm ist.

Lektionen fuer Algotrader

  1. Handelsfrequenz toetet — mehr Trades = schlechtere Ergebnisse
  2. Hebel verstaerkt Fehler — ungetestet: Hebel <3x
  3. Anpassung schlaegt Optimierung
  4. Win Rate ist ueberbewertet, R/R unterbewertet
  5. Provisionen sind reale Kosten

Was das fuer die Zukunft bedeutet

LLMs als Werkzeuge nutzen (Sentiment, Ideen, Debugging), nicht als autonome Trader. Hybrider Ansatz: klassische Indikatoren mit LLM-Kontext kombinieren. Chinesische LLMs betreten die Buehne: DeepSeek ist Open-Source und 10x guenstiger als ChatGPT.


Nuetzliche Links: