Google DeepMind AI Co-Mathematician Mencapai 47,9% di FrontierMath Tier 4, Mengalahkan GPT-5.5 Pro, Menyelesaikan 3 Masalah yang Sebelumnya Tidak Bisa Dipecahkan

Google DeepMind merilis asisten AI ko-matematikawan, asisten riset matematika multi-agen, dengan meraih akurasi 47,9% pada benchmark FrontierMath Tier 4, melampaui rekor sebelumnya GPT-5.5 Pro sebesar 39,6% pada 9 Mei. Sistem ini menyelesaikan 23 dari 48 soal, termasuk 3 yang gagal dipecahkan oleh semua model sebelumnya. Dibangun di atas Gemini 3.1 Pro, arsitekturnya menggunakan desain hierarkis dengan agen koordinator proyek yang mendistribusikan tugas ke sub-agen untuk menangani penelusuran literatur, pemrograman, dan penalaran, dengan beberapa agen pengulas memvalidasi bukti sebelum diajukan.

Epoch AI melakukan pengujian buta, mencegah tim DeepMind melihat soal, dengan setiap pertanyaan diberi waktu 48 jam untuk komputasi. Dalam penerapan dunia nyata, matematikawan Marc Lackenby menggunakan sistem tersebut untuk menyelesaikan dugaan terbuka dari Kourovka Notebook, yang menunjukkan nilai riset praktisnya. Sistem ini saat ini tersedia untuk sejumlah matematikawan terbatas dalam uji beta.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.

Artikel Terkait

Sakana AI dan Nvidia Mencapai Inferensi H100 30% Lebih Cepat dengan Melewati 80% Perhitungan yang Tidak Valid

Sakana AI dan Nvidia telah merilis TwELL sebagai open-source, format data yang jarang (sparse) yang memungkinkan GPU H100 melewati 80% komputasi yang tidak valid pada model bahasa besar tanpa mengorbankan akurasi. Solusi ini memberikan inferensi hingga 30% lebih cepat dan pelatihan 24% lebih cepat di H100, sekaligus mengurangi penggunaan memori puncak. Dalam pengujian pada model berparameter 1,5 miliar, pendekatan ini menurunkan neuron aktif menjadi di bawah 2% melalui regularisasi ringan selama

GateNews9menit yang lalu

Microsoft Membuka Sumber Model Phi-Ground 4B, Mengungguli OpenAI Operator dan Claude dalam Akurasi Klik Layar

Menurut Beating, Microsoft baru-baru ini merilis kode sumber terbuka keluarga model Phi-Ground, yang dirancang untuk memecahkan masalah ke mana AI harus mengklik pada layar komputer. Versi 4 miliar parameter, dipasangkan dengan model bahasa yang lebih besar untuk perencanaan instruksi, melampaui akurasi klik OpenAI Operator dan Claude Computer Use dalam benchmark Showdown serta menempati peringkat pertama di antara semua model dengan parameter di bawah 100 miliar pada lima evaluasi, termasuk Scr

GateNews41menit yang lalu

Tilde Research Menemukan Muon Optimizer Mematikan 25% Neuron; Alternatif Aurora Mencapai Kenaikan Efisiensi Data 100x

Menurut Tilde Research, pengoptimal Muon yang diadopsi oleh model AI terkemuka termasuk DeepSeek V4 dan Kimi K2.5 memiliki cacat tersembunyi: ia menyebabkan lebih dari 25% neuron pada lapisan MLP mati secara permanen selama pelatihan awal. Tim merancang Aurora, pengoptimal alternatif, dan memublikasikannya secara open-source. Model berparameter 1,1 miliar yang dilatih hanya dengan 100 miliar token menyamai kinerja Qwen3-1,7 miliar yang dilatih dengan 36 triliun token pada tolok ukur pemahaman ba

GateNews1jam yang lalu

Nvidia Mengucurkan Lebih dari $40 miliar untuk Investasi AI pada Awal 2026, Termasuk $30 miliar untuk OpenAI

Menurut TechCrunch, Nvidia menggelontorkan lebih dari $40 miliar untuk investasi ekuitas pada perusahaan AI pada beberapa bulan pertama 2026, dengan investasi $30 miliar pada OpenAI sebagai komitmen tunggal terbesar. Perusahaan pembuat chip itu juga menjanjikan hingga $3,2 miliar kepada Corning, perusahaan pembuat kaca, dan sebanyak-banyaknya $2,1 miliar kepada operator pusat data IREN, yang mencakup waran lima tahun serta kontrak terpisah senilai $3,4 miliar untuk layanan cloud GPU terkelola de

GateNews4jam yang lalu

NVIDIA menjalin kemitraan jangka panjang AI terbuka dengan Deepinfra dan mengantongi pendanaan Seri B sebesar 107 juta dolar AS untuk membangun “pabrik token”

Startup kecerdasan buatan DeepInfra mengumumkan penyelesaian pendanaan Seri B senilai 1,07 miliar dolar AS, dipimpin oleh 500 Global dan insinyur Google senior awal, Georges Harik, dengan partisipasi investor strategis seperti NVIDIA, Samsung Next, dan Supermicro. Menurut keterangan resmi, suntikan dana ini akan digunakan untuk memperluas kapasitas pusat data global, guna mengatasi biaya komputasi dan hambatan efisiensi yang dihadapi saat aplikasi AI beralih dari “pelatihan model” ke “inferensi

ChainNewsAbmedia4jam yang lalu

Anggota Dewan Pemerintahan ECB Escrivá Menyoroti Risiko AI terhadap Infrastruktur Keuangan pada 9 Mei

Anggota Dewan Pengatur ECB, Escrivá, menyatakan pada 9 Mei bahwa bank sentral harus menilai kembali ketahanan infrastruktur keuangan dan kekokohan siber seiring perkembangan kecerdasan buatan. Menurut pernyataannya dalam sebuah acara, kemajuan AI terbaru mendorong perlunya peninjauan ulang kemampuan sistem keuangan untuk menghadapi risiko yang muncul.

GateNews5jam yang lalu
Komentar
0/400
Tidak ada komentar