Ramp Labsがマルチエージェント記憶共有の新しいソリューションを提案、トークン消費を最大65%削減

robot
概要作成中

ME News ニュース、4月11日(UTC+8)、AIインフラ企業Ramp Labsは研究成果「Latent Briefing」を発表し、大規模モデルのKVキャッシュを直接圧縮することで、多エージェントシステム間の効率的な記憶共有を実現し、正確性を損なうことなくToken消費を大幅に削減した。主流の多エージェントアーキテクチャでは、オーケストレーター(Orchestrator)がタスクを分解し、ワーカー(Worker)モデルを繰り返し呼び出すが、推論の連鎖が伸びるにつれてTokenの使用量は指数関数的に増加する。Latent Briefingの核心的アイデアは、注意メカニズムを用いて文脈中の本当に重要な部分を識別し、表現層で冗長な情報を直接捨てることで、遅いLLMの要約や安定性の低いRAG検索に依存しないことにある。LongBench v2のベンチマークテストでは、この方法は顕著な効果を示し、WorkerモデルのToken消費を65%削減、中程度の長さの文書(32k〜100k)のToken節約中央値は49%、全体の正確率はベースラインより約3ポイント向上し、各圧縮にかかる追加時間はわずか約1.7秒で、元のアルゴリズムより約20倍高速化された。実験では、Claude Sonnet 4をオーケストレーター、Qwen3-14Bをワーカーモデルとして、学術論文、法律文書、小説、政府報告書など多様な文書シナリオをカバーした。研究はまた、最適な圧縮閾値はタスクの難易度や文書の長さによって異なることを発見し、難しいタスクには投機的推論ノイズを除去するために積極的な圧縮が適し、長文には散在する重要情報を保持するために軽度の圧縮が適していると示唆している。(出典:BlockBeats)

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン