El número que cada gran laboratorio de IA ha estado usando para reclamar supremacía en programación acaba de ser declarado sin sentido. OpenAI publicó esta semana un artículo anunciando que SWE-bench Verified, el benchmark de referencia para medir las capacidades de programación de IA, está tan plagado de pruebas defectuosas y filtraciones de datos de entrenamiento que ya no proporciona información útil sobre si un modelo puede realmente escribir software. El benchmark funciona así: se le da a una IA un problema real de GitHub de un proyecto popular de Python, se le pide que arregle el error sin ver las pruebas, y se verifica si su corrección hace que las pruebas fallidas pasen sin romper nada más.
OpenAI creó SWE-bench Verified en agosto de 2024 como una versión más limpia del benchmark original de 2023, reclutando a 93 ingenieros de software para filtrar tareas imposibles o mal diseñadas. La limpieza funcionó lo suficiente para que todos los principales laboratorios empezaran a citar sus puntuaciones como prueba de progreso. Cuando Anthropic lanzó Claude Opus 4 en mayo de 2025, Decrypt reportó que el modelo obtuvo un 72.5% en SWE-bench Verified, superando a GPT-4.1 con un 54.6% y a Gemini 2.5 Pro con un 63.2%. Era el benchmark de programación que importaba. Desde entonces, todos los laboratorios de IA, desde Estados Unidos hasta China, han mostrado su rendimiento en SWE para reclamar el trono como el mejor modelo en capacidades de programación.
Imagen: Minimax
Ahora OpenAI dice que esa carrera fue en parte una ilusión. Según el informe, el equipo auditó 138 tareas en las que GPT-5.2 falló consistentemente en 64 ejecuciones independientes, revisadas por seis ingenieros. Concluyeron que el 59.4% de esas tareas están rotas. Alrededor del 35.5% tienen pruebas tan específicas que requieren un nombre de función que nunca se menciona en la descripción del problema. Otro 18.8% verifica características que ni siquiera formaban parte del problema original, recopiladas de solicitudes de extracción no relacionadas. El problema de contaminación funciona más o menos así: SWE-bench obtiene sus problemas de repositorios de código abierto que la mayoría de las empresas de IA revisan al construir conjuntos de entrenamiento. OpenAI probó si GPT-5.2, Claude Opus 4.5 y Gemini 3 Flash Preview habían visto las soluciones del benchmark durante el entrenamiento. Los tres sí. Con solo un ID de tarea y una pista breve, cada modelo pudo reproducir la corrección exacta del código de memoria, incluyendo nombres de variables y comentarios en línea que no aparecen en la descripción del problema. En un caso, los registros de razonamiento de GPT-5.2 mostraron que pensaba que un parámetro específico había sido “agregado alrededor de Django 4.1”, un detalle que solo aparece en las notas de lanzamiento de Django, no en la descripción de la tarea. Estaba respondiendo a una pregunta cuya respuesta ya había visto. OpenAI ahora recomienda SWE-bench Pro, un benchmark más reciente de Scale AI que usa bases de código más diversas y licencias que reducen la exposición a datos de entrenamiento. La caída en rendimiento es impactante: modelos que superaban el 70% en el antiguo SWE-bench Verified obtienen solo alrededor del 23% en la división pública de SWE-bench Pro, y aún menos en sus tareas privadas. En la tabla de clasificación pública actual de SWE-bench Verified, OpenAI está lejos del podio del benchmark. Retirar un benchmark en el que estás perdiendo y promover uno en el que todos empiezan en el 23% reinicia la puntuación en un momento conveniente y hace que las afirmaciones de los competidores sean menos impresionantes.
Esto es especialmente importante considerando que se rumorea que la nueva versión muy esperada de DeepSeek podría superar o estar muy cerca de los modelos de IA estadounidenses, especialmente en tareas de agentes y programación con un modelo de código abierto y gratuito. Ese modelo podría estar a días de su lanzamiento, y SWE-bench Verified puede ser una métrica clave para medir su calidad.
OpenAI dijo que está desarrollando evaluaciones de autoría privada que no serán publicadas antes de las pruebas, señalando su proyecto GDPVal, donde expertos en dominio crean tareas originales calificadas por revisores humanos entrenados. El problema del benchmark no es nuevo, ni exclusivo de la programación. Los laboratorios de IA han pasado por varias evaluaciones, cada una útil hasta que los modelos fueron entrenados en ellas o las tareas resultaron demasiado estrechas. Pero lo que hace notable este caso es que OpenAI promocionó SWE-bench Verified, lo promovió en lanzamientos de modelos y ahora documenta públicamente cuánto ha fallado, incluso mostrando cómo su propio modelo hizo trampa en él.