Согласно мониторингу 1M AI News, SWE-rebench — это реальный бенчмарк, который ежемесячно извлекает новые задачи по программной инженерии (issues + PR) с GitHub и тестирует модели в режиме реального времени, при этом модели не могут заранее оптимизировать ответы под конкретные задачи. 23 марта Ибрагим опубликовал обновление рейтинга, отменив ранее демонстрационные примеры и ограничение в 80 шагов, а также добавил вспомогательные оценочные задания.
Последний топ-10 рейтинга:
- Claude Opus 4.6: 65,3%
- GPT-5.2 medium: 64,4%
- GLM-5: 62,8%
- GPT-5.4 medium: 62,8%
- Gemini 3.1 Pro Preview: 62,3%
- DeepSeek-V3.2: 60,9%
- Claude Sonnet 4.6: 60,7%
- Claude Sonnet 4.5: 60,0%
- Qwen3.5-397B-A17B: 59,9%
- Step-3.5-Flash: 59,6%
Открытая модель Ипсур AI GLM-5 (под лицензией MIT) с результатом 62,8% занимает третье место и является самой высокой среди открытых моделей в списке. В топ-10 представлены четыре китайские модели: кроме GLM-5, это DeepSeek-V3.2 (шестое место), Qwen3.5-397B-A17B от Alibaba (девятое) и Step-3.5-Flash (десятое). Руководитель глобального направления Z.ai Ицзюсянь Ли отметил, что при последнем обновлении SWE-rebench все китайские модели оказались за пределами топ-10, что вызвало критику за «benchmaxing» (засчетное увеличение баллов).
Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к
Отказу от ответственности.