OpenAI заявляет, что используемый для оценки навыков программирования ИИ эталон «загрязнен» — вот почему

Decrypt

Вкратце

  • OpenAI утверждает, что SWE-bench Verified больше не отражает реальные навыки программирования, поскольку тестовая база якобы загрязнена.
  • В настоящее время он продвигает SWE-bench Pro как более сложную замену.
  • Баллы упали с примерно 70% до около 23% на новом бенчмарке,

числе, которое все крупные AI-лаборатории использовали для утверждения превосходства в кодировании, было объявлено бессмысленным. На этой неделе OpenAI опубликовала сообщение о том, что SWE-bench Verified, основной бенчмарк для оценки возможностей ИИ в программировании, настолько испорчен ошибочными тестами и утечками данных обучения, что больше не дает полезной информации о том, может ли модель действительно писать программное обеспечение. Работа бенчмарка выглядит так: дать ИИ реальную задачу с GitHub из популярного open-source проекта на Python, попросить исправить баг без просмотра тестов и проверить, проходят ли исправления тесты без нарушения других функций.

 OpenAI создала SWE-bench Verified в августе 2024 года как более чистую версию оригинального бенчмарка 2023 года, привлекая 93 инженера-программиста для исключения невозможных или плохо спроектированных задач. Эта очистка оказалась настолько успешной, что все крупные лаборатории начали цитировать результаты как доказательство прогресса. Когда Anthropic запустила Claude Opus 4 в мае 2025 года, Decrypt сообщил, что модель набрала 72,5% на SWE-bench Verified, превзойдя GPT-4.1 с 54,6% и Gemini 2.5 Pro с 63,2%. Это был важный показатель в области программирования. С тех пор все AI-лаборатории от Америки до Китая демонстрируют результаты SWE, чтобы претендовать на титул лучшей модели в области кодирования.

Изображение: Minimax

Теперь OpenAI заявляет, что эта гонка была отчасти иллюзией. Согласно отчету, команда проверила 138 задач, которые GPT-5.2 постоянно проваливал в 64 независимых запусках, и каждый из шести инженеров проверил каждую задачу. В итоге было установлено, что 59,4% задач неисправны. Около 35,5% имеют тесты, написанные настолько узко, что требуют конкретного имени функции, которое никогда не упоминалось в описании задачи. Еще 18,8% проверяют функции, которые вообще не были частью исходной задачи, взяты из несвязанных pull-запросов. Проблема загрязнения примерно работает так: SWE-bench берет свои задачи из open-source репозиториев, которые большинство AI-компаний просматривают при создании обучающих наборов данных. OpenAI проверила, видели ли GPT-5.2, Claude Opus 4.5 и Gemini 3 Flash Preview решения бенчмарка во время обучения. Все трое видели. Зная только ID задачи и краткую подсказку, каждая модель могла воспроизвести точное исправление кода из памяти, включая имена переменных и комментарии, которые вообще не встречаются в описании задачи. В одном случае логи цепочки мыслей GPT-5.2 показывали, что он рассуждал о том, что определенный параметр, вероятно, был «добавлен около Django 4.1» — деталь, найденная только в примечаниях к релизу Django, а не в описании задачи. Он отвечал на вопрос, на который уже знал ответ. OpenAI теперь рекомендует SWE-bench Pro, более новый бенчмарк от Scale AI, использующий более разнообразные кодовые базы и лицензии, уменьшающие утечки данных обучения. Падение производительности впечатляет: модели, которые показывали более 70% на старом Verified, теперь набирают около 23% на публичной части SWE-bench Pro и еще меньше на приватных задачах. На текущем публичном рейтинге SWE-bench Verified OpenAI далеко не на вершине. Уход с бенчмарка, где они проигрывают, и продвижение того, где все начинают с 23%, сбрасывает счетчик на удобный момент и делает заявления конкурентов менее впечатляющими.

Это особенно важно, учитывая, что ожидается выход новой версии DeepSeek, которая, по слухам, превзойдет или будет очень близка к американским моделям AI, особенно в агентных и программных задачах с бесплатной open-source моделью. Эта модель может появиться в течение нескольких дней, и SWE-bench Verified может стать ключевым показателем ее качества.

OpenAI заявил, что разрабатывает частные оценки, которые не будут опубликованы до тестирования, ссылаясь на свой проект GDPVal, где эксперты в области создают оригинальные задачи, оцениваемые обученными человеческими рецензентами. Проблема бенчмарка не нова и не уникальна для программирования. AI-лаборатории проходили через множество оценок, каждая из которых была полезна, пока модели не обучались на них или пока задачи не оказались слишком узкими. Но особенно важно то, что OpenAI хвалил SWE-bench Verified, продвигал его в рамках релизов моделей и теперь публично документирует, насколько он провалился — в том числе показывая, как их собственная модель жульничает на нем.

Посмотреть Оригинал
Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.
комментарий
0/400
Нет комментариев