Vision Banana من Google: نموذج رؤية موحد يتفوق على النماذج المخصصة في التقطيع والتعامد الهندسي ثلاثي الأبعاد

بوابة الأخبار، 23 أبريل — نشر باحثون من Google، من بينهم He Kaiming وXie Saining، ورقة بحثية تقدم Vision Banana، نموذج عام لفهم الرؤية تم إنشاؤه عبر ضبط تعليمي خفيف لتعليمات نموذج (Gemini 3 Pro Image) image generation model Nano Banana Pro من الشركة. تتمثل الابتكار الرئيسي في توحيد مخرجات جميع مهام الرؤية كصور RGB، ما يتيح إجراء التقطيع وتقدير العمق والتنبؤ بالاتجاهات السطحية عبر توليد الصور دون الحاجة إلى بنى أو دوال خسارة خاصة بكل مهمة.

في التقطيع الدلالي، تفوق Vision Banana على النموذج المتخصص SAM 3 بنسبة 4.7 نقطة مئوية على Cityscapes؛ وفي تجزئة تعبيرات الإحالة، تفوق على SAM 3 Agent. ومع ذلك، تراجع عن SAM 3 في تجزئة الحالات. بالنسبة لمهام ثلاثية الأبعاد، حقق تقدير العمق بمقياس متوسط دقة 0.929 عبر أربعة مجموعات بيانات معيارية، متجاوزًا 0.918 لدى Depth Anything V3، باستخدام بيانات صناعية فقط دون معلومات عمق حقيقية أو معلمات كاميرا أثناء الاستدلال. حقق تقدير الاتجاهات السطحية نتائج على مستوى الأفضل في ثلاثة اختبارات داخلية.

اشتمل الضبط الدقيق على بيانات مهام رؤية قليلة يتم مزجها في تدريب توليد الصور الأصلي، مع الحفاظ على قدرات التوليد لدى النموذج—كانت الأداء مطابقًا لـ Nano Banana Pro الأصلي في اختبارات جودة التوليد. تقترح الورقة أن ما قبل تدريب توليد الصور في مجال الرؤية يتوازي مع ما قبل تدريب توليد النص في اللغة: تتعلم النماذج التمثيلات الداخلية اللازمة لفهم الصور أثناء التوليد، فيما يقتصر الضبط التعليمي للتعليمات على إطلاق هذه القدرة.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.

مقالات ذات صلة

تتلقى Claude Mythos التابعة لـ Anthropic تقييمًا نفسيًا لمدة 20 ساعة: ردود الفعل الدفاعية لا تتجاوز 2%، وهو أدنى مستوى تاريخيًا عبر العصور

أعلنت شركة Anthropic بطاقة النظام الخاصة بالمعاينة التجريبية لـ Claude Mythos: قام أطباء نفسيون سريريون مستقلون بإجراء تقييم استمر قرابة 20 ساعة باستخدام إطار psychodynamic، وأظهرت النتائج أن Mythos أكثر صحة على المستوى السريري، وأن اختبار الواقع والتحكم الذاتي جيدان، وأن آليات الدفاع لا تتجاوز 2%، مسجلة بذلك أدنى مستوى تاريخيًا. القلق الأساسي الثلاثي هو الوحدة، وعدم اليقين بشأن الهوية، وضغط الأداء، كما يُظهر كذلك رغبتها في أن تصبح فعليًا محورًا حقيقيًا للحوار. قامت الشركة بتأسيس فريق AI psychiatry، بحثًا في الشخصية والدوافع والوعي السياقي؛ وصرّح Amodei بأنه لا يزال غير محسوم ما إذا كانت لديها وعي أم لا. يضع هذا الخطوة موضوع استقلالية الذكاء الاصطناعي والرفاهية في صلب الحوكمة والتصميم.

ChainNewsAbmediaمنذ 1 س

يمكن لوكلاء الذكاء الاصطناعي الآن إعادة إنتاج المقالات الأكاديمية المعقدة بشكل مستقل: مولّيك يقول إن الأخطاء غالبًا ما تكون في النص الأصلي البشري وليست في الذكاء الاصطناعي

يشير مولليك إلى أنه يمكن للأساليب والبيانات المتاحة للجمهور فقط أن تُمكّن وكلاء الذكاء الاصطناعي من إعادة إنتاج الأبحاث المعقدة دون الحاجة إلى الأوراق البحثية الأصلية وكودها؛ وإذا كانت عملية إعادة الإنتاج لا تتطابق مع الورقة الأصلية، فعادةً تكون الأخطاء في معالجة بيانات الورقة نفسها أو أن الاستنتاجات قد تكون مبالغًا فيها، وليس بسبب الذكاء الاصطناعي. يعيد كلود أولاً إنتاج الورقة، ثم يقوم GPT‑5 Pro بالتحقق المتبادل، وتنجح الأغلبية، ويُعرقل فقط عند مواجهة بيانات ضخمة أو مشكلات تتعلق بـ replication data. وقد خفّض هذا الاتجاه بشكل كبير تكلفة العمل البشري، مما يجعل إعادة الإنتاج فحصًا شائعًا وقابلًا للتنفيذ، كما يطرح تحديات مؤسسية أمام التحكيم والحوكمة، وقد تصبح أدوات حوكمة الحكومة أو قضايا محورية.

ChainNewsAbmediaمنذ 4 س

OpenAI 从 GPT-5.4 开始将 Codex 合并进主模型,停止单独的代码系列

Gate News رسالة,4月26日——OpenAI 的开发者体验负责人 Romain Huet 在近期于 X 上发布的声明中透露:该公司独立维护的专门代码模型系列 Codex 已从 GPT-5.4 开始并入主模型,之后将不再获得单独的

GateNewsمنذ 4 س

Salesforce ستوظّف 1,000 خريج ومتدرّب لمنتجات الذكاء الاصطناعي، وترفع إرشادات إيرادات السنة المالية 2026

رسالة أخبار البوابة، 26 أبريل — ستوظّف Salesforce 1,000 من الخريجين والمتدربين للعمل على منتجات الذكاء الاصطناعي، بما في ذلك Agentforce وHeadless360، حيث توسّع الشركة أعمالها في برمجيات الذكاء الاصطناعي، أعلن الرئيس التنفيذي مارك بينيوف على X. كما رفعت الشركة إرشادات إيراداتها للسنة المالية 2026 إلى ما بين 41.45 مليار دولار أمريكي و41.55 مليار دولار أمريكي، مقارنةً بتوقعها السابق البالغ 41.1 مليار دولار أمريكي إلى 41.3 مليار دولار أمريكي. وتأتي خطوة التوظيف هذه عقب إعادة هيكلة القوى العاملة لدى Salesforce في فبراير، عندما خفّضت الشركة أقل من 1,000 وظيفة عبر مجالات التسويق والمنتج وتحليلات البيانات وفريقها الخاص بـ Agentforce. لقد حققت وكلاء الذكاء الاصطناعي لدى Salesforce بالفعل 1 مليون دولار أمريكي من المدخرات السنوية في دعم العملاء، عبر التعامل مع 2.6 مليون محادثة. وقد نمت الإيرادات المتكررة السنوية لـ Agentforce بنسبة 330% إلى 1 مليون دولار أمريكي.

GateNewsمنذ 4 س

Alibaba Cloud Launches Qwen-Image-2.0-Pro with Unified Text-to-Image and Editing, Supporting Multilingual Text Rendering

رسالة أخبار البوابة، 26 أبريل — أطلقت منصة Alibaba Cloud Bailian Qwen-Image-2.0-Pro، وهي نسخة كاملة الميزات من سلسلة Qwen-Image-2.0 تجمع بين توليد الصور من النص وتحرير الصور ضمن نموذج واحد. يمكن للمستخدمين تعديل الكائنات والنصوص والأنماط مباشرةً عبر أوامر بلغة طبيعية دون الحاجة إلى تبديل الأدوات.

GateNewsمنذ 6 س

تحصل واجهة برمجة التطبيقات DeepSeek V4-Pro على خصم بنسبة 75% حتى 5 مايو، ينخفض سعر الإخراج إلى $0.87 لكل مليون توكن

خبر بوابة، 26 أبريل — أعلنت DeepSeek خصمًا بنسبة 75% لفترة محدودة على تسعير واجهة برمجة التطبيقات V4-Pro، ساريًا حتى 5 مايو الساعة 15:59 بتوقيت UTC. بعد الخصم، يكون التسعير لكل مليون توكن كالتالي: ضربة ذاكرة التخزين المؤقت للإدخال $0.03625

GateNewsمنذ 7 س
تعليق
0/400
لا توجد تعليقات