Angka yang selama ini digunakan oleh setiap lab AI besar untuk mengklaim keunggulan dalam coding baru saja dinyatakan tidak berarti. OpenAI menerbitkan sebuah posting minggu ini yang mengumumkan bahwa SWE-bench Verified, benchmark utama untuk mengukur kemampuan coding AI, sangat dipenuhi dengan tes yang cacat dan bocornya data pelatihan sehingga tidak lagi memberikan informasi yang berguna tentang apakah sebuah model benar-benar mampu menulis perangkat lunak. Benchmark ini bekerja seperti ini: Berikan sebuah masalah GitHub nyata dari proyek Python open-source yang populer kepada AI, minta AI memperbaiki bug tanpa melihat tesnya, dan periksa apakah patch-nya membuat tes yang gagal menjadi lulus tanpa merusak hal lain.
OpenAI menciptakan SWE-bench Verified pada Agustus 2024 sebagai versi yang lebih bersih dari benchmark 2023 asli, dengan merekrut 93 insinyur perangkat lunak untuk menyaring tugas yang tidak mungkin atau dirancang buruk. Pembersihan ini cukup berhasil sehingga setiap lab besar mulai menyebut skor di dalamnya sebagai bukti kemajuan. Ketika Anthropic meluncurkan Claude Opus 4 pada Mei 2025, Decrypt melaporkan bahwa model tersebut mendapatkan skor 72,5% di SWE-bench Verified, mengalahkan GPT-4.1 yang mendapatkan 54,6% dan Gemini 2.5 Pro dengan 63,2%. Itu adalah benchmark coding yang penting. Sejak saat itu, setiap lab AI dari Amerika hingga China menunjukkan performa SWE mereka untuk mengklaim tahta sebagai model terbaik dalam kemampuan coding.
Gambar: Minimax
Sekarang OpenAI mengatakan bahwa perlombaan itu sebagian hanyalah ilusi. Menurut laporan tersebut, tim mengaudit 138 tugas yang secara konsisten gagal dilalui GPT-5.2 dalam 64 kali percobaan independen, dan meminta enam insinyur meninjau setiap tugas. Mereka akhirnya menyimpulkan bahwa 59,4% dari tugas tersebut rusak. Sekitar 35,5% memiliki tes yang sangat sempit sehingga memerlukan nama fungsi tertentu yang tidak pernah disebutkan dalam deskripsi masalah. Selain itu, 18,8% memeriksa fitur yang sama sekali tidak termasuk dalam masalah asli, diambil dari pull request yang tidak terkait. Masalah pencemaran ini kira-kira bekerja seperti ini: SWE-bench menarik masalah dari repositori open-source yang sebagian besar AI crawl saat membangun set pelatihan. OpenAI menguji apakah GPT-5.2, Claude Opus 4.5, dan Gemini 3 Flash Preview pernah melihat solusi benchmark selama pelatihan. Ketiganya memang pernah. Dengan hanya ID tugas dan petunjuk singkat, setiap model dapat mereproduksi solusi kode yang tepat dari memori, termasuk nama variabel dan komentar inline yang sama sekali tidak muncul dalam deskripsi masalah. Dalam satu kasus, log chain-of-thought GPT-5.2 menunjukkan bahwa ia beralasan bahwa parameter tertentu harusnya “ditambahkan sekitar Django 4.1”—sebuah detail yang hanya ditemukan di catatan rilis Django, bukan dalam deskripsi tugas. Ia menjawab pertanyaan yang sebenarnya sudah pernah dilihat jawabannya. OpenAI kini merekomendasikan SWE-bench Pro, benchmark terbaru dari Scale AI yang menggunakan basis kode yang lebih beragam dan lisensi yang mengurangi paparan data pelatihan. Penurunan performa sangat mencolok: model yang sebelumnya mencapai lebih dari 70% di benchmark Verified lama, kini hanya sekitar 23% di SWE-bench Pro versi publik, dan bahkan lebih rendah di tugas privatnya. Di papan peringkat SWE-bench Verified publik saat ini, OpenAI jauh dari podium benchmark tersebut. Menghentikan penggunaan benchmark yang menunjukkan kekalahan dan mendukung yang dimulai dari 23% secara bersamaan mereset papan skor di saat yang tepat dan membuat klaim pesaing menjadi kurang mengesankan.
Ini sangat penting mengingat versi terbaru DeepSeek yang sangat dinantikan dikabarkan akan mengalahkan atau sangat dekat dengan model AI Amerika, terutama dalam tugas agenik dan coding dengan model open-source gratis. Model tersebut bisa saja dirilis dalam beberapa hari ke depan, dan SWE-bench Verified bisa menjadi metrik kunci untuk mengukur kualitasnya.
OpenAI mengatakan sedang membangun evaluasi yang dibuat secara privat yang tidak akan dirilis sebelum pengujian, menunjuk pada proyek GDPVal mereka di mana para ahli domain menulis tugas asli yang dinilai oleh pengulas manusia terlatih. Masalah benchmark ini bukan hal baru, dan tidak unik untuk coding. Lab AI telah melalui berbagai evaluasi, masing-masing berguna sampai model dilatih di atasnya atau sampai tugasnya terlalu sempit. Namun yang membuat kasus ini menonjol adalah bahwa OpenAI mempromosikan SWE-bench Verified, mengiklankannya di berbagai rilis model, dan kini secara terbuka mendokumentasikan seberapa besar kegagalannya—termasuk dengan menunjukkan model mereka sendiri yang curang saat mengerjakannya.