OpenAI dice que la referencia utilizada para medir la habilidad de codificación en IA está 'contaminada'—Aquí te explicamos por qué

Decrypt

En breve

  • OpenAI argumenta que SWE-bench Verified ya no refleja la verdadera capacidad de programación porque supuestamente el benchmark está contaminado.
  • Ahora está promoviendo SWE-bench Pro como un reemplazo más difícil.
  • Las puntuaciones cayeron de aproximadamente 70% a aproximadamente 23% en el nuevo benchmark,

El número que cada gran laboratorio de IA ha estado usando para reclamar supremacía en programación acaba de ser declarado sin sentido. OpenAI publicó esta semana un artículo anunciando que SWE-bench Verified, el benchmark de referencia para medir las capacidades de programación de IA, está tan plagado de pruebas defectuosas y filtraciones de datos de entrenamiento que ya no proporciona información útil sobre si un modelo puede realmente escribir software. El benchmark funciona así: se le da a una IA un problema real de GitHub de un proyecto popular de Python, se le pide que arregle el error sin ver las pruebas, y se verifica si su corrección hace que las pruebas fallidas pasen sin romper nada más.

OpenAI creó SWE-bench Verified en agosto de 2024 como una versión más limpia del benchmark original de 2023, reclutando a 93 ingenieros de software para filtrar tareas imposibles o mal diseñadas. La limpieza funcionó lo suficiente para que todos los principales laboratorios empezaran a citar sus puntuaciones como prueba de progreso. Cuando Anthropic lanzó Claude Opus 4 en mayo de 2025, Decrypt reportó que el modelo obtuvo un 72.5% en SWE-bench Verified, superando a GPT-4.1 con un 54.6% y a Gemini 2.5 Pro con un 63.2%. Era el benchmark de programación que importaba. Desde entonces, todos los laboratorios de IA, desde Estados Unidos hasta China, han mostrado su rendimiento en SWE para reclamar el trono como el mejor modelo en capacidades de programación.

Imagen: Minimax

Ahora OpenAI dice que esa carrera fue en parte una ilusión. Según el informe, el equipo auditó 138 tareas en las que GPT-5.2 falló consistentemente en 64 ejecuciones independientes, revisadas por seis ingenieros. Concluyeron que el 59.4% de esas tareas están rotas. Alrededor del 35.5% tienen pruebas tan específicas que requieren un nombre de función que nunca se menciona en la descripción del problema. Otro 18.8% verifica características que ni siquiera formaban parte del problema original, recopiladas de solicitudes de extracción no relacionadas. El problema de contaminación funciona más o menos así: SWE-bench obtiene sus problemas de repositorios de código abierto que la mayoría de las empresas de IA revisan al construir conjuntos de entrenamiento. OpenAI probó si GPT-5.2, Claude Opus 4.5 y Gemini 3 Flash Preview habían visto las soluciones del benchmark durante el entrenamiento. Los tres sí. Con solo un ID de tarea y una pista breve, cada modelo pudo reproducir la corrección exacta del código de memoria, incluyendo nombres de variables y comentarios en línea que no aparecen en la descripción del problema. En un caso, los registros de razonamiento de GPT-5.2 mostraron que pensaba que un parámetro específico había sido “agregado alrededor de Django 4.1”, un detalle que solo aparece en las notas de lanzamiento de Django, no en la descripción de la tarea. Estaba respondiendo a una pregunta cuya respuesta ya había visto. OpenAI ahora recomienda SWE-bench Pro, un benchmark más reciente de Scale AI que usa bases de código más diversas y licencias que reducen la exposición a datos de entrenamiento. La caída en rendimiento es impactante: modelos que superaban el 70% en el antiguo SWE-bench Verified obtienen solo alrededor del 23% en la división pública de SWE-bench Pro, y aún menos en sus tareas privadas. En la tabla de clasificación pública actual de SWE-bench Verified, OpenAI está lejos del podio del benchmark. Retirar un benchmark en el que estás perdiendo y promover uno en el que todos empiezan en el 23% reinicia la puntuación en un momento conveniente y hace que las afirmaciones de los competidores sean menos impresionantes.

Esto es especialmente importante considerando que se rumorea que la nueva versión muy esperada de DeepSeek podría superar o estar muy cerca de los modelos de IA estadounidenses, especialmente en tareas de agentes y programación con un modelo de código abierto y gratuito. Ese modelo podría estar a días de su lanzamiento, y SWE-bench Verified puede ser una métrica clave para medir su calidad.

OpenAI dijo que está desarrollando evaluaciones de autoría privada que no serán publicadas antes de las pruebas, señalando su proyecto GDPVal, donde expertos en dominio crean tareas originales calificadas por revisores humanos entrenados. El problema del benchmark no es nuevo, ni exclusivo de la programación. Los laboratorios de IA han pasado por varias evaluaciones, cada una útil hasta que los modelos fueron entrenados en ellas o las tareas resultaron demasiado estrechas. Pero lo que hace notable este caso es que OpenAI promocionó SWE-bench Verified, lo promovió en lanzamientos de modelos y ahora documenta públicamente cuánto ha fallado, incluso mostrando cómo su propio modelo hizo trampa en él.

Ver originales
Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.
Comentar
0/400
Sin comentarios