Claude Sonnet 4.6 Fennec: первая модель, пробившая 80% на SWE-Bench
Новый стандарт в ИИ-кодинге
3 февраля 2026 года компания Anthropic представила модель Claude Sonnet 4.6, получившую кодовое имя Fennec. Главная сенсация — результат 82.1% на SWE-Bench Verified, что делает её первой языковой моделью, преодолевшей психологически важный барьер в 80%.
SWE-Bench — это бенчмарк, оценивающий способность ИИ-моделей решать реальные задачи из GitHub-репозиториев: находить баги, писать патчи, проходить тесты. До Fennec лучший результат составлял около 72%.
Ключевые характеристики
Производительность в кодинге
| Бенчмарк | Claude Sonnet 4.6 | GPT-5 | Gemini 3.1 Pro |
|---|---|---|---|
| SWE-Bench Verified | 82.1% | 75.3% | 71.8% |
| HumanEval+ | 96.2% | 93.1% | 91.4% |
| MBPP+ | 89.7% | 86.5% | 84.2% |
Что изменилось по сравнению с Claude 3.5
- Глубокое понимание контекста кодовой базы — модель лучше ориентируется в крупных проектах
- Более точная генерация патчей — меньше «галлюцинаций» при модификации существующего кода
- Расширенное окно контекста до 256K токенов
- Улучшенное следование инструкциям — критически важно для агентских сценариев
Почему это важно для разработчиков
SWE-Bench — это не синтетический бенчмарк. Это реальные задачи из реальных open-source проектов: Django, Flask, scikit-learn, sympy и других. Когда модель решает 82% таких задач, это означает, что она способна:
- Самостоятельно находить и исправлять баги в production-коде
- Писать юнит-тесты, которые реально проходят CI
- Рефакторить код с сохранением обратной совместимости
Fennec в агентских сценариях
Особенно впечатляющие результаты Fennec показывает в составе агентских систем — когда модель работает в цикле с инструментами (терминал, файловая система, браузер). Anthropic продемонстрировала, как Claude Sonnet 4.6 в связке с Claude Code может:
- Анализировать кодовую базу из тысяч файлов
- Планировать многошаговые изменения
- Выполнять их и проверять результат
Влияние на рынок
Выход Fennec усилил конкуренцию в сегменте ИИ-ассистентов для разработки. GitHub Copilot уже объявил о поддержке Claude Sonnet 4.6 в качестве одной из доступных моделей, а Cursor и другие ИИ-редакторы начали интеграцию в первые дни после релиза.
Для алготрейдеров и разработчиков торговых систем это тоже значимая новость: качество автоматической генерации и отладки торговых ботов выходит на новый уровень.
Поделиться статьей:
Похожие статьи
Обсуждение
Присоединяйтесь к обсуждению в нашем Telegram-чате!