Los modelos chinos ocuparon cuatro posiciones en esta ocasión, después de que la última vez en el benchmark SWE-rebench cayeran fuera de los diez primeros y fueron ridiculizados por "inflar puntuaciones".

BlockBeatNews

Según la monitorización de 1M AI News, SWE-rebench es una prueba de referencia en tiempo real que extrae mensualmente nuevas tareas de ingeniería de software (issues + PR) de GitHub, y los modelos no pueden optimizarse previamente para los temas. El mantenedor Ibragim publicó la actualización de la lista el 23 de marzo, eliminando las demostraciones de ejemplo y la restricción de 80 pasos, además de agregar tareas de evaluación auxiliar.

Última clasificación de los diez primeros:

  1. Claude Opus 4.6: 65.3%
  2. GPT-5.2 medium: 64.4%
  3. GLM-5: 62.8%
  4. GPT-5.4 medium: 62.8%
  5. Gemini 3.1 Pro Preview: 62.3%
  6. DeepSeek-V3.2: 60.9%
  7. Claude Sonnet 4.6: 60.7%
  8. Claude Sonnet 4.5: 60.0%
  9. Qwen3.5-397B-A17B: 59.9%
  10. Step-3.5-Flash: 59.6%

El modelo de código abierto de Z.ai, GLM-5 (licencia MIT), ocupa el tercer lugar con un 62.8%, siendo el modelo de código abierto mejor clasificado en la lista. Cuatro modelos chinos están en el top diez: además de GLM-5, también DeepSeek-V3.2 (sexto), Qwen3.5-397B-A17B de Alibaba (noveno) y Step-3.5-Flash (décimo). Li Zixuan, responsable global de Z.ai, comentó que en la última actualización de SWE-rebench, todos los modelos chinos quedaron fuera del top diez, siendo criticados por “benchmaxing” (hacer trampa en la puntuación).

Ver originales
Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.
Comentar
0/400
Sin comentarios