Ramp Labs usulkan solusi baru berbagi memori multi-agen, konsumsi Token turun hingga 65%

2026-04-11 16:50:03

Pembuatan abstrak sedang berlangsung

Berita ME, 11 April (UTC+8), perusahaan infrastruktur AI Ramp Labs merilis hasil penelitian berjudul “Latent Briefing”, yang memungkinkan berbagi memori yang efisien antar sistem multi-agen melalui kompresi langsung cache KV model besar, secara signifikan mengurangi konsumsi Token tanpa mengorbankan akurasi. Dalam arsitektur multi-agen utama, pengatur (Orchestrator) memecah tugas dan memanggil model pekerja (Worker) secara berulang, dan seiring bertambahnya rantai inferensi, penggunaan Token meningkat secara eksponensial. Inti dari Latent Briefing adalah: memanfaatkan mekanisme perhatian untuk mengidentifikasi bagian yang benar-benar penting dalam konteks, dan langsung membuang informasi redundan di tingkat representasi, bukan bergantung pada ringkasan LLM yang lambat atau pencarian RAG yang kurang stabil. Dalam pengujian benchmark LongBench v2, metode ini menunjukkan performa yang mengesankan: konsumsi Token model Worker berkurang 65%, penghematan Token untuk dokumen berukuran sedang (32k hingga 100k) mencapai median 49%, tingkat akurasi keseluruhan meningkat sekitar 3 poin persentase dibandingkan baseline, dan waktu tambahan untuk setiap kompresi hanya sekitar 1,7 detik, sekitar 20 kali lebih cepat dari algoritma asli. Eksperimen dilakukan dengan Claude Sonnet 4 sebagai pengatur dan Qwen3-14B sebagai model pekerja, mencakup berbagai skenario dokumen seperti makalah akademik, dokumen hukum, novel, dan laporan pemerintah. Penelitian juga menemukan bahwa ambang kompresi optimal bervariasi tergantung pada tingkat kesulitan tugas dan panjang dokumen—tantangan yang lebih sulit cocok untuk kompresi agresif guna menyaring noise inferensi spekulatif, sementara dokumen panjang lebih cocok untuk kompresi ringan agar informasi penting yang tersebar tetap terjaga. (Sumber: BlockBeats)

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.