Ramp Labs تقدم حلاً جديدًا لمشاركة ذاكرة متعددة الوكلاء، مع تقليل استهلاك الرموز إلى حد أقصى بنسبة 65%

robot
إنشاء الملخص قيد التقدم

موجز أخبار ME، 11 أبريل (بتوقيت UTC+8)، أصدرت شركة البنية التحتية للذكاء الاصطناعي Ramp Labs نتائج بحث بعنوان “Latent Briefing”، والذي يحقق مشاركة فعالة للذاكرة بين الأنظمة متعددة الوكلاء من خلال ضغط مباشر لذاكرة التخزين المؤقت لنموذج كبير، مما يقلل بشكل كبير من استهلاك الرموز دون فقدان الدقة. في بنية الأنظمة متعددة الوكلاء السائدة، يقوم المنسق (Orchestrator) بتقسيم المهام واستدعاء نماذج العاملين (Worker) بشكل متكرر، ومع استمرار تمديد سلسلة الاستدلال، يتضخم استهلاك الرموز بشكل أسي. الفكرة الأساسية لـ Latent Briefing هي: استخدام آلية الانتباه لتحديد الأجزاء الحاسمة في السياق، والتخلص مباشرة من المعلومات الزائدة على مستوى التمثيل، بدلاً من الاعتماد على ملخصات النموذج الكبير البطيئة أو استرجاع RAG غير المستقر. في اختبار معيار LongBench v2، أظهرت هذه الطريقة أداءً مميزًا: انخفاض استهلاك الرموز لنموذج العامل بنسبة 65%، وتوفير رموز متوسطة الطول (من 32 ألف إلى 100 ألف) بنسبة 49%، مع تحسين الدقة الإجمالية بمقدار حوالي 3 نقاط مئوية مقارنة بالخط الأساسي، بينما استغرق كل ضغط إضافي حوالي 1.7 ثانية فقط، مما يسرع الخوارزمية الأصلية حوالي 20 مرة. أجريت التجارب باستخدام Claude Sonnet 4 كمنسق، وQwen3-14B كنموذج عامل، لتغطية سيناريوهات مختلفة تشمل الأوراق الأكاديمية، والوثائق القانونية، والروايات، والتقارير الحكومية. كما أظهرت الدراسة أن الحد الأقصى لضغط البيانات يختلف حسب صعوبة المهمة وطول الوثيقة—فالمهام الصعبة مناسبة للضغط الجريء لتصفية الضوضاء الناتجة عن التفكير المراوغ، بينما تكون الوثائق الطويلة أكثر ملاءمة للضغط الخفيف للحفاظ على المعلومات المفتتة. (المصدر: BlockBeats)

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت