Google DeepMind merilis asisten AI ko-matematikawan, asisten riset matematika multi-agen, dengan meraih akurasi 47,9% pada benchmark FrontierMath Tier 4, melampaui rekor sebelumnya GPT-5.5 Pro sebesar 39,6% pada 9 Mei. Sistem ini menyelesaikan 23 dari 48 soal, termasuk 3 yang gagal dipecahkan oleh semua model sebelumnya. Dibangun di atas Gemini 3.1 Pro, arsitekturnya menggunakan desain hierarkis dengan agen koordinator proyek yang mendistribusikan tugas ke sub-agen untuk menangani penelusuran literatur, pemrograman, dan penalaran, dengan beberapa agen pengulas memvalidasi bukti sebelum diajukan.
Epoch AI melakukan pengujian buta, mencegah tim DeepMind melihat soal, dengan setiap pertanyaan diberi waktu 48 jam untuk komputasi. Dalam penerapan dunia nyata, matematikawan Marc Lackenby menggunakan sistem tersebut untuk menyelesaikan dugaan terbuka dari Kourovka Notebook, yang menunjukkan nilai riset praktisnya. Sistem ini saat ini tersedia untuk sejumlah matematikawan terbatas dalam uji beta.
Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke
Penafian.
Artikel Terkait
Sakana AI dan Nvidia Mencapai Inferensi H100 30% Lebih Cepat dengan Melewati 80% Perhitungan yang Tidak Valid
Sakana AI dan Nvidia telah merilis TwELL sebagai open-source, format data yang jarang (sparse) yang memungkinkan GPU H100 melewati 80% komputasi yang tidak valid pada model bahasa besar tanpa mengorbankan akurasi. Solusi ini memberikan inferensi hingga 30% lebih cepat dan pelatihan 24% lebih cepat di H100, sekaligus mengurangi penggunaan memori puncak. Dalam pengujian pada model berparameter 1,5 miliar, pendekatan ini menurunkan neuron aktif menjadi di bawah 2% melalui regularisasi ringan selama
GateNews9menit yang lalu
Microsoft Membuka Sumber Model Phi-Ground 4B, Mengungguli OpenAI Operator dan Claude dalam Akurasi Klik Layar
Menurut Beating, Microsoft baru-baru ini merilis kode sumber terbuka keluarga model Phi-Ground, yang dirancang untuk memecahkan masalah ke mana AI harus mengklik pada layar komputer. Versi 4 miliar parameter, dipasangkan dengan model bahasa yang lebih besar untuk perencanaan instruksi, melampaui akurasi klik OpenAI Operator dan Claude Computer Use dalam benchmark Showdown serta menempati peringkat pertama di antara semua model dengan parameter di bawah 100 miliar pada lima evaluasi, termasuk Scr
GateNews41menit yang lalu
Tilde Research Menemukan Muon Optimizer Mematikan 25% Neuron; Alternatif Aurora Mencapai Kenaikan Efisiensi Data 100x
Menurut Tilde Research, pengoptimal Muon yang diadopsi oleh model AI terkemuka termasuk DeepSeek V4 dan Kimi K2.5 memiliki cacat tersembunyi: ia menyebabkan lebih dari 25% neuron pada lapisan MLP mati secara permanen selama pelatihan awal. Tim merancang Aurora, pengoptimal alternatif, dan memublikasikannya secara open-source. Model berparameter 1,1 miliar yang dilatih hanya dengan 100 miliar token menyamai kinerja Qwen3-1,7 miliar yang dilatih dengan 36 triliun token pada tolok ukur pemahaman ba
GateNews1jam yang lalu
Nvidia Mengucurkan Lebih dari $40 miliar untuk Investasi AI pada Awal 2026, Termasuk $30 miliar untuk OpenAI
Menurut TechCrunch, Nvidia menggelontorkan lebih dari $40 miliar untuk investasi ekuitas pada perusahaan AI pada beberapa bulan pertama 2026, dengan investasi $30 miliar pada OpenAI sebagai komitmen tunggal terbesar. Perusahaan pembuat chip itu juga menjanjikan hingga $3,2 miliar kepada Corning, perusahaan pembuat kaca, dan sebanyak-banyaknya $2,1 miliar kepada operator pusat data IREN, yang mencakup waran lima tahun serta kontrak terpisah senilai $3,4 miliar untuk layanan cloud GPU terkelola de
GateNews4jam yang lalu
NVIDIA menjalin kemitraan jangka panjang AI terbuka dengan Deepinfra dan mengantongi pendanaan Seri B sebesar 107 juta dolar AS untuk membangun “pabrik token”
Startup kecerdasan buatan DeepInfra mengumumkan penyelesaian pendanaan Seri B senilai 1,07 miliar dolar AS, dipimpin oleh 500 Global dan insinyur Google senior awal, Georges Harik, dengan partisipasi investor strategis seperti NVIDIA, Samsung Next, dan Supermicro. Menurut keterangan resmi, suntikan dana ini akan digunakan untuk memperluas kapasitas pusat data global, guna mengatasi biaya komputasi dan hambatan efisiensi yang dihadapi saat aplikasi AI beralih dari “pelatihan model” ke “inferensi
ChainNewsAbmedia4jam yang lalu
Anggota Dewan Pemerintahan ECB Escrivá Menyoroti Risiko AI terhadap Infrastruktur Keuangan pada 9 Mei
Anggota Dewan Pengatur ECB, Escrivá, menyatakan pada 9 Mei bahwa bank sentral harus menilai kembali ketahanan infrastruktur keuangan dan kekokohan siber seiring perkembangan kecerdasan buatan. Menurut pernyataannya dalam sebuah acara, kemajuan AI terbaru mendorong perlunya peninjauan ulang kemampuan sistem keuangan untuk menghadapi risiko yang muncul.
GateNews5jam yang lalu