中国模型上次SWE-rebench全落前十被嘲「刷分」,这次占了四席

区块律动

据 1M AI News 监测,SWE-rebench 是一个每月从 GitHub 抽取全新软件工程任务(issue + PR)的实时基准测试,模型无法提前针对题目优化。维护者 Ibragim 3 月 23 日公布榜单更新,取消了此前的示例演示和 80 步操作限制,新增辅助评估任务。

最新前十排名:

  1. Claude Opus 4.6:65.3%
  2. GPT-5.2 medium:64.4%
  3. GLM-5:62.8%
  4. GPT-5.4 medium:62.8%
  5. Gemini 3.1 Pro Preview:62.3%
  6. DeepSeek-V3.2:60.9%
  7. Claude Sonnet 4.6:60.7%
  8. Claude Sonnet 4.5:60.0%
  9. Qwen3.5-397B-A17B:59.9%
  10. Step-3.5-Flash:59.6%

智谱 AI 的开源模型 GLM-5(MIT 协议)以 62.8% 排名第三,是榜上最高的开源模型。中国模型占前十中四席,除 GLM-5 外,还有深度求索 DeepSeek-V3.2(第六)、阿里通义千问 Qwen3.5-397B-A17B(第九)以及阶跃星辰 Step-3.5-Flash(第十)。智谱 Z.ai 全球负责人李子玄评论称,上一次 SWE-rebench 更新时中国模型全部落在前十之外,被批评为「benchmaxing」(刷分)。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明
评论
0/400
暂无评论