OpenAI заявляє, що бенчмарк, який використовується для оцінки навичок кодування штучного інтелекту, «забруднений» — ось чому

Decrypt

2026-02-24 21:35:30

Коротко

OpenAI стверджує, що SWE-bench Verified більше не відображає реальні навички програмування, оскільки тест був нібито забруднений.
Тепер вони просувають SWE-bench Pro як більш складну заміну.
Результати знизилися з приблизно 70% до 23% на новішому тесті,

Це число, яке використовували всі провідні AI-лабораторії для заявлення про перевагу у програмуванні, було оголошено беззмістовним. OpenAI опублікувала цю тиждень повідомлення, що SWE-bench Verified, основний тест для вимірювання можливостей AI у програмуванні, настільки заплямлений недосконалими тестами та витоком даних під час тренування, що він більше не дає корисної інформації про здатність моделі справді писати програмне забезпечення. Тест працює так: дає AI реальну проблему з GitHub з популярного відкритого проекту на Python, просить її виправити баг без перегляду тестів і перевіряє, чи проходять тестові випадки після виправлення, не зламавши нічого іншого.

OpenAI створила SWE-bench Verified у серпні 2024 року як більш чисту версію оригінального тесту 2023 року, залучивши 93 інженери-програмісти для відсіву завдань, які були неможливими або погано спроектованими. Це очищення працювало настільки добре, що кожна провідна лабораторія почала посилатися на результати як на доказ прогресу. Коли Anthropic випустила Claude Opus 4 у травні 2025 року, Decrypt повідомила, що модель набрала 72,5% на SWE-bench Verified, перевершивши GPT-4.1 з 54,6% і Gemini 2.5 Pro з 63,2%. Це був важливий тест для програмування. З того часу кожна AI-лабораторія від Америки до Китаю демонструє результати SWE, щоб претендувати на трон найкращої моделі для програмування.

Зображення: Minimax

Зараз OpenAI каже, що ця гонка була частково ілюзією. За їхнім звітом, команда проаналізувала 138 завдань, які GPT-5.2 стабільно провалював у 64 незалежних запусків, і кожне завдання переглядали шість інженерів. Вони дійшли висновку, що 59,4% цих завдань несправні. Близько 35,5% мають тести, написані так вузько, що вимагають конкретної назви функції, яка ніколи не згадується в описі задачі. Ще 18,8% перевіряють функції, які взагалі не були частиною початкової проблеми, зібрані з нерелевантних pull-запитів. Проблема забруднення приблизно працює так: SWE-bench бере свої задачі з відкритих репозиторіїв, які більшість AI-компаній сканує під час створення тренувальних наборів. OpenAI перевірила, чи бачили GPT-5.2, Claude Opus 4.5 і Gemini 3 Flash Preview рішення тесту під час тренування. Всі троє бачили. Маючи лише ID задачі та короткий натяк, кожна модель могла відтворити точне рішення з пам’яті, включно з іменами змінних і коментарями, які не з’являються в описі задачі. В одному випадку, логи GPT-5.2 показали, що вона розмірковувала, що певний параметр був “доданий приблизно в Django 4.1” — деталь, знайдена лише в нотатках до релізу Django, а не в описі задачі. Вона відповідала на питання, яке вже бачила раніше. Зараз OpenAI рекомендує SWE-bench Pro — новий тест від Scale AI, який використовує більш різноманітні кодові бази та ліцензії, що зменшують витік даних під час тренування. Зниження результатів вражає: моделі, що проходили понад 70% на старому Verified, тепер мають близько 23% на публічному розділі SWE-bench Pro і ще менше на приватних завданнях. На поточному публічному рейтингу SWE-bench Verified OpenAI далеко від п’єдесталу. Відмовлятися від тесту, де ти програєш, і підтримувати той, де всі починають з 23%, — зручний момент для перезавантаження таблиці результатів і зменшення вражаючості заяв про досягнення конкурентів.

Це особливо важливо, враховуючи, що очікується нова версія DeepSeek, яка, за чутками, перевершить або буде дуже близькою до американських AI-моделей, особливо у агентських і програмних завданнях з відкритим кодом. Ця модель може з’явитися вже за кілька днів, і SWE-bench Verified стане ключовим показником її якості.

OpenAI заявила, що розробляє приватні оцінки, які не будуть оприлюднені до тестування, посилаючись на проект GDPVal, де експерти з галузі створюють оригінальні завдання, оцінювані тренованими людськими рецензентами. Проблема тесту не нова і не унікальна для програмування. AI-лабораторії проходили через кілька оцінювань, кожне корисне, поки моделі не тренувалися на них або поки завдання не ставали надто вузькими. Але особливість цього випадку у тому, що OpenAI підхопила SWE-bench Verified, просувала його під час релізів моделей і тепер публічно документує, наскільки він провалився — навіть показуючи, як їхня власна модель з ним збрехала.

Переглянути оригінал

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Прокоментувати

0/400

Немає коментарів