Claude Sonnet 4.6 Fennec：首个突破SWE-Bench 80%的模型

AI编程的新标准

2026年2月3日，Anthropic发布了模型Claude Sonnet 4.6，代号Fennec。最大的轰动——在SWE-Bench Verified上取得82.1%的成绩，成为首个突破心理重要关口80%的语言模型。

SWE-Bench是一个评估AI模型解决GitHub代码库中真实任务能力的基准测试：查找bug、编写补丁、通过测试。在Fennec之前，最好成绩约为72%。

基准测试	Claude Sonnet 4.6	GPT-5	Gemini 3.1 Pro
SWE-Bench Verified	82.1%	75.3%	71.8%
HumanEval+	96.2%	93.1%	91.4%
MBPP+	89.7%	86.5%	84.2%

SWE-Bench不是合成基准测试。这些是来自真实开源项目的真实任务：Django、Flask、scikit-learn、sympy等。当模型能解决82%的此类任务时，意味着它能够：

Fennec在Agent系统中表现尤为出色——当模型与工具（终端、文件系统、浏览器）循环协作时。Anthropic展示了Claude Sonnet 4.6与Claude Code配合可以：

Fennec的发布加剧了AI开发助手领域的竞争。GitHub Copilot已宣布支持Claude Sonnet 4.6作为可用模型之一，Cursor和其他AI编辑器在发布后的最初几天就开始了集成。

对于算法交易者和交易系统开发者来说，这也是一个重要消息：交易机器人的自动生成和调试质量达到了新的水平。