Karyawan OpenAI secara terbuka menuduh hasil uji coba Benchmark dari model AI terbaru xAI Grok3 memiliki sifat yang menyesatkan

ChainCatcher

2025-02-23 09:44:47

XAI20,52%

GROK-2,47%

Pesan ChainCatcher, seperti dilaporkan oleh Jinshi, seorang karyawan OpenAI secara terbuka menuduh perusahaan XAI di bawah kendali Musk, menyatakan bahwa hasil uji Benchmark terbaru dari model AI Grok3 yang dirilis oleh perusahaan tersebut menyesatkan. Igor Babushkin, salah satu pendiri XAI, dengan tegas menyatakan bahwa perusahaannya tidak melakukan hal yang tidak semestinya. Grafik xAI menunjukkan bahwa dua versi Grok3 - Grok3 Reasoning Beta dan Grok3 mini Reasoning - memiliki kinerja di atas model yang paling kuat yang saat ini tersedia dari OpenAI, o3-mini-high, di AIME 2025. Namun, staf OpenAI dengan cepat menunjukkan di platform X bahwa grafik xAI tidak mencakup skor AIME 2025 o3-mini-high dalam kondisi “cons@64”. Babu Bushkin berpendapat di platform X bahwa OpenAI juga pernah merilis grafik uji benchmark yang menyesatkan serupa di masa lalu. Meskipun grafik tersebut digunakan untuk membandingkan kinerja model mereka sendiri.

Lihat Asli

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.

Komentar

0/400

Tidak ada komentar