Claude Sonnet 4.6 Fennec: Das erste Modell, das 80% auf SWE-Bench durchbricht

Ein neuer Standard im KI-Coding

Am 3. Februar 2026 stellte Anthropic das Modell Claude Sonnet 4.6 vor, Codename Fennec. Die Hauptsensation — ein Ergebnis von 82,1% auf SWE-Bench Verified, was es zum ersten Sprachmodell macht, das die psychologisch wichtige 80%-Barriere durchbricht.

SWE-Bench ist ein Benchmark, der die Faehigkeit von KI-Modellen bewertet, echte Aufgaben aus GitHub-Repositories zu loesen: Bugs finden, Patches schreiben, Tests bestehen. Vor Fennec lag das beste Ergebnis bei etwa 72%.

Wichtige Eigenschaften

Coding-Leistung

Benchmark	Claude Sonnet 4.6	GPT-5	Gemini 3.1 Pro
SWE-Bench Verified	82,1%	75,3%	71,8%
HumanEval+	96,2%	93,1%	91,4%
MBPP+	89,7%	86,5%	84,2%

Was sich gegenueber Claude 3.5 geaendert hat

Tiefes Verstaendnis des Codebase-Kontexts — das Modell navigiert besser in grossen Projekten
Genauere Patch-Generierung — weniger “Halluzinationen” bei der Modifikation bestehenden Codes
Erweitertes Kontextfenster auf 256K Token
Verbessertes Befolgen von Anweisungen — kritisch wichtig fuer agentische Szenarien

Warum das fuer Entwickler wichtig ist

SWE-Bench ist kein synthetischer Benchmark. Es sind echte Aufgaben aus echten Open-Source-Projekten: Django, Flask, scikit-learn, sympy und andere. Wenn ein Modell 82% solcher Aufgaben loest, bedeutet das, dass es kann:

Selbststaendig Bugs in Production-Code finden und beheben
Unit-Tests schreiben, die tatsaechlich CI bestehen
Code refaktorisieren unter Beibehaltung der Rueckwaertskompatibilitaet

Fennec in agentischen Szenarien

Besonders beeindruckende Ergebnisse zeigt Fennec als Teil von agentischen Systemen — wenn das Modell in einer Schleife mit Werkzeugen (Terminal, Dateisystem, Browser) arbeitet. Anthropic demonstrierte, wie Claude Sonnet 4.6 zusammen mit Claude Code kann:

Eine Codebasis aus Tausenden von Dateien analysieren
Mehrschrittige Aenderungen planen
Sie ausfuehren und das Ergebnis ueberpruefen

Marktauswirkungen

Die Veroeffentlichung von Fennec verstaerkte den Wettbewerb im Segment der KI-Entwicklungsassistenten. GitHub Copilot hat bereits angekuendigt, Claude Sonnet 4.6 als eines der verfuegbaren Modelle zu unterstuetzen, und Cursor sowie andere KI-Editoren begannen mit der Integration in den ersten Tagen nach der Veroeffentlichung.

Fuer Algotrader und Entwickler von Handelssystemen ist dies ebenfalls eine bedeutende Nachricht: Die Qualitaet der automatischen Generierung und des Debuggings von Trading-Bots erreicht ein neues Niveau.