ME News ニュース、4月11日(UTC+8)、AIインフラ企業Ramp Labsは研究成果「Latent Briefing」を発表し、大規模モデルのKVキャッシュを直接圧縮することで、多エージェントシステム間の効率的な記憶共有を実現し、精度を損なうことなくToken消費を大幅に削減しました。主流の多エージェントアーキテクチャでは、オーケストレーター(Orchestrator)がタスクを分解し、ワーカー(Worker)モデルを繰り返し呼び出します。推論の連鎖が伸びるにつれて、Tokenの使用量は指数関数的に増加します。Latent Briefingの核心的アイデアは、注意メカニズムを用いて文脈中の本当に重要な部分を識別し、表現層で冗長な情報を直接捨てることで、遅いLLMの要約や安定性の低いRAG検索に依存しないことです。LongBench v2のベンチマークテストでは、この方法は顕著な効果を示しました:WorkerモデルのToken消費を65%削減、中程度の長さのドキュメント(32kから100k)ではToken節約の中央値が49%に達し、全体の正確率はベースラインより約3ポイント向上しました。さらに、各圧縮にかかる追加時間はわずか約1.7秒で、元のアルゴリズムより約20倍の高速化を実現しています。実験では、Claude Sonnet 4をオーケストレーター、Qwen3-14Bをワーカーモデルとして、学術論文、法律文書、小説、政府報告書など多様なドキュメントシナリオをカバーしました。研究はまた、最適な圧縮閾値はタスクの難易度やドキュメントの長さによって異なることを発見しました。難しいタスクには投機的推論ノイズを除去するために積極的な圧縮が適しており、長いドキュメントには散在する重要情報を保持するために軽度の圧縮がより適しているとしています。(出典:BlockBeats)
Ramp Labsがマルチエージェント記憶共有の新しいソリューションを提案、トークン消費を最大65%削減
ME News ニュース、4月11日(UTC+8)、AIインフラ企業Ramp Labsは研究成果「Latent Briefing」を発表し、大規模モデルのKVキャッシュを直接圧縮することで、多エージェントシステム間の効率的な記憶共有を実現し、精度を損なうことなくToken消費を大幅に削減しました。主流の多エージェントアーキテクチャでは、オーケストレーター(Orchestrator)がタスクを分解し、ワーカー(Worker)モデルを繰り返し呼び出します。推論の連鎖が伸びるにつれて、Tokenの使用量は指数関数的に増加します。Latent Briefingの核心的アイデアは、注意メカニズムを用いて文脈中の本当に重要な部分を識別し、表現層で冗長な情報を直接捨てることで、遅いLLMの要約や安定性の低いRAG検索に依存しないことです。LongBench v2のベンチマークテストでは、この方法は顕著な効果を示しました:WorkerモデルのToken消費を65%削減、中程度の長さのドキュメント(32kから100k)ではToken節約の中央値が49%に達し、全体の正確率はベースラインより約3ポイント向上しました。さらに、各圧縮にかかる追加時間はわずか約1.7秒で、元のアルゴリズムより約20倍の高速化を実現しています。実験では、Claude Sonnet 4をオーケストレーター、Qwen3-14Bをワーカーモデルとして、学術論文、法律文書、小説、政府報告書など多様なドキュメントシナリオをカバーしました。研究はまた、最適な圧縮閾値はタスクの難易度やドキュメントの長さによって異なることを発見しました。難しいタスクには投機的推論ノイズを除去するために積極的な圧縮が適しており、長いドキュメントには散在する重要情報を保持するために軽度の圧縮がより適しているとしています。(出典:BlockBeats)