Ein neuer Standard im KI-Coding

Am 3. Februar 2026 stellte Anthropic das Modell Claude Sonnet 4.6 vor, Codename Fennec. Die Hauptsensation — ein Ergebnis von 82,1% auf SWE-Bench Verified, was es zum ersten Sprachmodell macht, das die psychologisch wichtige 80%-Barriere durchbricht.

SWE-Bench ist ein Benchmark, der die Faehigkeit von KI-Modellen bewertet, echte Aufgaben aus GitHub-Repositories zu loesen: Bugs finden, Patches schreiben, Tests bestehen. Vor Fennec lag das beste Ergebnis bei etwa 72%.

Wichtige Eigenschaften

Coding-Leistung

Benchmark Claude Sonnet 4.6 GPT-5 Gemini 3.1 Pro
SWE-Bench Verified 82,1% 75,3% 71,8%
HumanEval+ 96,2% 93,1% 91,4%
MBPP+ 89,7% 86,5% 84,2%

Was sich gegenueber Claude 3.5 geaendert hat

  • Tiefes Verstaendnis des Codebase-Kontexts — das Modell navigiert besser in grossen Projekten
  • Genauere Patch-Generierung — weniger “Halluzinationen” bei der Modifikation bestehenden Codes
  • Erweitertes Kontextfenster auf 256K Token
  • Verbessertes Befolgen von Anweisungen — kritisch wichtig fuer agentische Szenarien

Warum das fuer Entwickler wichtig ist

SWE-Bench ist kein synthetischer Benchmark. Es sind echte Aufgaben aus echten Open-Source-Projekten: Django, Flask, scikit-learn, sympy und andere. Wenn ein Modell 82% solcher Aufgaben loest, bedeutet das, dass es kann:

  • Selbststaendig Bugs in Production-Code finden und beheben
  • Unit-Tests schreiben, die tatsaechlich CI bestehen
  • Code refaktorisieren unter Beibehaltung der Rueckwaertskompatibilitaet

Fennec in agentischen Szenarien

Besonders beeindruckende Ergebnisse zeigt Fennec als Teil von agentischen Systemen — wenn das Modell in einer Schleife mit Werkzeugen (Terminal, Dateisystem, Browser) arbeitet. Anthropic demonstrierte, wie Claude Sonnet 4.6 zusammen mit Claude Code kann:

  • Eine Codebasis aus Tausenden von Dateien analysieren
  • Mehrschrittige Aenderungen planen
  • Sie ausfuehren und das Ergebnis ueberpruefen

Marktauswirkungen

Die Veroeffentlichung von Fennec verstaerkte den Wettbewerb im Segment der KI-Entwicklungsassistenten. GitHub Copilot hat bereits angekuendigt, Claude Sonnet 4.6 als eines der verfuegbaren Modelle zu unterstuetzen, und Cursor sowie andere KI-Editoren begannen mit der Integration in den ersten Tagen nach der Veroeffentlichung.

Fuer Algotrader und Entwickler von Handelssystemen ist dies ebenfalls eine bedeutende Nachricht: Die Qualitaet der automatischen Generierung und des Debuggings von Trading-Bots erreicht ein neues Niveau.