Berita Gate, 22 April — Google Research merilis ReasoningBank, sebuah kerangka memori agen yang memungkinkan agen yang digerakkan oleh model bahasa besar untuk terus belajar setelah penerapan. Kerangka ini mengekstrak strategi penalaran universal dari pengalaman tugas yang berhasil maupun yang gagal, menyimpannya dalam bank memori untuk diambil dan dieksekusi pada tugas-tugas serupa di masa depan. Makalah terkait dipublikasikan di ICLR, dan kodenya telah dirilis sumber terbukanya di GitHub.

ReasoningBank ditingkatkan dibandingkan dua pendekatan yang sudah ada: Synapse, yang merekam lintasan aksi lengkap tetapi memiliki keterpindahan yang terbatas karena granularitas yang terlalu terperinci, dan Agent Workflow Memory, yang hanya belajar dari kasus yang berhasil. ReasoningBank membuat dua perubahan kunci: menyimpan “pola penalaran” alih-alih “urutan aksi,” dengan setiap memori berisi bidang terstruktur untuk judul, deskripsi, dan konten; serta memasukkan lintasan kegagalan ke dalam pembelajaran. Kerangka ini menggunakan sebuah model untuk menilai sendiri lintasan eksekusi, mengubah pengalaman kegagalan menjadi aturan anti-jebakan. Misalnya, aturan “klik tombol Muat Lebih saat terlihat” berevolusi menjadi “verifikasi terlebih dahulu pengidentifikasi halaman saat ini, hindari loop gulir tak berujung, lalu klik muat lebih.”

Makalah ini juga memperkenalkan Memory-aware Test-time Scaling (MaTTS), yang mengalokasikan komputasi tambahan selama inferensi untuk mengeksplorasi beberapa lintasan dan menyimpan temuan di bank memori. Ekspansi paralel menjalankan beberapa lintasan berbeda untuk tugas yang sama, menyempurnakan strategi yang lebih andal melalui perbandingan diri; ekspansi berurutan menyempurnakan satu lintasan secara iteratif, menyimpan penalaran antara di memori.

Pada tugas browser WebArena dan tugas pengkodean SWE-Bench-Verified menggunakan Gemini 2.5 Flash sebagai agen ReAct, ReasoningBank mencapai tingkat keberhasilan 8,3% lebih tinggi di WebArena dan 4,6% lebih tinggi di SWE-Bench-Verified dibandingkan baseline tanpa memori, dengan mengurangi rata-rata langkah per tugas sekitar 3. Menambahkan MaTTS dengan ekspansi paralel (k=5) selanjutnya meningkatkan tingkat keberhasilan WebArena sebesar 3 poin persentase dan mengurangi langkah sebesar tambahan 0,4.

Lihat Sumber

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.

Artikel Terkait

OpenAI Merekrut Talenta Perangkat Lunak Perusahaan Teratas karena Agen Frontier Mengganggu Industri

Saham Agen AI Berita Industri AI

Pesan Berita Gate, 26 April — OpenAI dan Anthropic telah merekrut eksekutif senior dan insinyur spesialis dari perusahaan perangkat lunak perusahaan besar, termasuk Salesforce, Snowflake, Datadog, dan Palantir. Denise Dresser, mantan CEO Slack di bawah Salesforce, bergabung dengan OpenAI sebagai chief revenue officer, sementara

GateNews6jam yang lalu

Worxphere Mengganti Merek JobKorea dengan Alat Perekrutan Berbasis AI

Agen AI AI Tools & Aplikasi

Berita Gate, 26 April — Platform HR Korea Selatan, Worxphere, telah mengganti merek JobKorea saat beralih dari papan lowongan online tradisional ke solusi perekrutan berbasis AI. Perusahaan ini mengonsolidasikan layanan termasuk JobKorea dan Albamon ke dalam satu platform terpadu yang mencakup pekerjaan tetap,

GateNews16jam yang lalu

AI Agent kini bisa secara mandiri mereproduksi makalah akademis yang kompleks: Mollick mengatakan kesalahan lebih banyak berasal dari teks asli manusia, bukan dari AI

Agen AI Berita Industri AI

Mollick 指出, metode dan data publik saja sudah cukup bagi AI agent untuk mereplikasi penelitian kompleks tanpa adanya naskah dan kode program asli; jika replikasi tidak sesuai dengan naskah asli, biasanya itu karena kesalahan dalam pengolahan data pada naskah itu sendiri atau kesimpulan yang terlalu berlebihan, bukan karena AI. Claude terlebih dahulu mereplikasi naskah, lalu GPT‑5 Pro melakukan verifikasi silang; sebagian besar berhasil, hanya terhambat ketika data terlalu besar atau ada masalah replication data. Tren ini secara besar mengurangi biaya tenaga kerja, sehingga replikasi menjadi pemeriksaan yang umum dan dapat dilakukan, serta juga mengajukan tantangan institusional untuk proses peninjauan dan tata kelola; alat kebijakan tata kelola pemerintah atau menjadi isu kunci.

ChainNewsAbmedia17jam yang lalu

UEA Mengumumkan Peralihan Ke Model Pemerintahan Berbasis AI dalam Dua Tahun Ke Depan

Agen AI Berita Industri AI

Yang Mulia Syekh Mohammed bin Rashid Al Maktoum menyatakan bahwa tujuannya adalah agar 50% sektor pemerintahan beroperasi melalui agen AI otonom. Transisi ini juga akan mencakup pelatihan pegawai federal untuk “menguasai AI” dan akan diawasi oleh Syekh Mansour bin Zayed. Poin-Poin Penting:

Coinpedia04-25 08:39

Platform Perdagangan AI Fere AI Menggalang $1,3M dalam Pendanaan yang Dipimpin oleh Ethereal Ventures

Agen AI Berita Industri AI

Pesan Berita Gate, 25 April — Fere AI, platform perdagangan aset digital berbasis AI, mengumumkan penyelesaian putaran pendanaan sebesar $1,3 juta yang dipimpin oleh Ethereal Ventures, dengan partisipasi dari Galaxy Vision Hill dan Kosmos Ventures, menurut Globenewswire. Platform ini mendukung jaringan lintas-rantai

GateNews04-25 07:46

Nvidia Meluncurkan Agen AI OpenAI Codex ke Seluruh Tenaga Kerja dengan Infrastruktur Blackwell

Agen AI Berita Industri AI

Pesan Gate News, 25 April — Nvidia telah meluncurkan Codex dari OpenAI, sebuah agen AI yang didukung oleh GPT-5.5, ke seluruh tenaga kerjanya setelah uji coba yang berhasil dengan sekitar 10.000 karyawan, menurut komunikasi internal dari CEO Jensen Huang dan CEO OpenAI Sam Altman. Codex dirancang untuk membantu

GateNews04-25 03:11

Komentar

0/400

Tidak ada komentar