SWE-rebench clasificación más reciente: modelos de IA chinos ocupan los primeros catorce lugares, GLM-5 ocupa el tercer puesto

Gate News Noticias, el 25 de marzo, el mantenedor de la prueba de referencia SWE-rebench, Ibragim, anunció la actualización de la lista el 23 de marzo. SWE-rebench es una prueba de referencia en tiempo real que extrae nuevas tareas de ingeniería de software de GitHub cada mes, y el modelo no puede optimizarse previamente para las tareas. En esta actualización se eliminaron las demostraciones de ejemplo y la restricción de 80 pasos, además de añadirse tareas de evaluación auxiliares.

Las diez mejores posiciones más recientes son: 1. Claude Opus 4.6 (65.3%); 2. GPT-5.2 medium (64.4%); 3. GLM-5 (62.8%); 4. GPT-5.4 medium (62.8%); 5. Gemini 3.1 Pro Preview (62.3%); 6. DeepSeek-V3.2 (60.9%); 7. Claude Sonnet 4.6 (60.7%); 8. Claude Sonnet 4.5 (60.0%); 9. Qwen3.5-397B-A17B (59.9%); 10. Step-3.5-Flash (59.6%).

El modelo de código abierto de Zhipu AI, GLM-5 (licencia MIT), ocupa el tercer lugar con un 62.8%, siendo el modelo de código abierto mejor clasificado en la lista. Cuatro modelos chinos están en el top ten, además de GLM-5, incluyendo DeepSeek-V3.2 (sexto), Qwen3.5-397B-A17B de Alibaba Tongyi Qianwen (noveno) y Step-3.5-Flash (décimo). Li Zixuan, responsable global de Z.ai de Zhipu AI, afirmó que en la última actualización de SWE-rebench, todos los modelos chinos estaban fuera del top ten.

Ver originales
Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.
Comentar
0/400
Sin comentarios