أطلقت DeepSeek إصدارات تجريبية من DeepSeek-V4-Pro وDeepSeek-V4-Flash في 24 أبريل 2026، وكلاهما نماذج مفتوحة الأوزان ذات نافذة سياق من مليون توكن وأسعار أقل بكثير من البدائل الغربية المتكافئة. تبلغ تكلفة نموذج V4-Pro $1.74 لكل مليون توكن إدخال و$3.48 لكل مليون توكن إخراج—أي ما يقارب 1/20 من السعر الخاص بـ Claude Opus 4.7 وخصمًا بنسبة 98% أقل من GPT-5.5 Pro، وفقًا للمواصفات الرسمية للشركة.
يتميز DeepSeek-V4-Pro بـ 1.6 تريليون معامل إجمالي، ما يجعله أكبر نموذج مفتوح المصدر في سوق نماذج LLM حتى الآن. ومع ذلك، يتم تفعيل 49 مليار معامل فقط لكل تمرير استدلال واحد، باستخدام ما تسميه DeepSeek نهج Mixture-of-Experts الذي تم تحسينه منذ V3. يتيح هذا التصميم بقاء النموذج الكامل في وضع الخمول بينما يتم تفعيل الأجزاء ذات الصلة فقط لأي طلب معين، مما يقلل تكاليف الحوسبة مع الحفاظ على سعة المعرفة.
يعمل DeepSeek-V4-Flash على نطاق أصغر بإجمالي 284 مليار معامل و13 مليار معامل مُفعّل. ووفقًا لمقاييس DeepSeek، فإنه “يحقق أداءً استدلاليًا مماثلًا لإصدار Pro عند منحه ميزانية تفكير أكبر.”
يدعم كلا النموذجين مليون توكن من السياق كميزة قياسية—حوالي 750,000 كلمة، أو تقريبًا كامل ثلاثية “Lord of the Rings” بالإضافة إلى نص إضافي.
عالجت DeepSeek مشكلة التوسع الحوسبي الكامنة في معالجة السياق الطويل عبر ابتكار نوعين جديدين من آلية الانتباه، كما ورد بالتفصيل في الورقة التقنية للشركة المتاحة على GitHub.
تواجه آليات الانتباه القياسية للذكاء الاصطناعي مشكلة توسّع قاسية: في كل مرة يتضاعف فيها طول السياق، ترتفع تكلفة الحوسبة تقريبًا بأربع مرات. تتضمن حل DeepSeek نهجين متكاملين:
Compressed Sparse Attention يعمل على خطوتين. في الخطوة الأولى، يقوم بضغط مجموعات من التوكنات—مثلًا، كل 4 توكنات—في إدخال واحد. ثم بدلًا من الانتباه إلى جميع المدخلات المضغوطة، يستخدم “Lightning Indexer” لاختيار النتائج الأكثر صلة فقط لأي استعلام معين. وهذا يقلل نطاق انتباه النموذج من مليون توكن إلى مجموعة أصغر بكثير من الأجزاء المهمة.
Heavily Compressed Attention يتبع نهجًا أكثر حدة، حيث يقوم بتجميع كل 128 توكنًا في إدخال واحد دون اختيار بنية متفرقة. ورغم أن ذلك يؤدي إلى فقدان تفاصيل دقيقة، فإنه يوفر نظرة عالمية رخيصة للغاية. تعمل آلية الانتباهان في طبقات متناوبة، مما يسمح للنموذج بالحفاظ على كل من التفاصيل والإشراف.
النتيجة: يستخدم V4-Pro 27% من القدرة الحوسبية التي احتاجها سلفه (V3.2). ينخفض KV cache—وهو الذاكرة اللازمة لتتبع السياق—إلى 10% من V3.2. يدفع V4-Flash الكفاءة إلى أبعد من ذلك: 10% من القدرة الحوسبية و7% من الذاكرة مقارنةً بـ V3.2.
نشرت DeepSeek مقارنات اختبار معيارية شاملة ضد GPT-5.4 وGemini-3.1-Pro، بما في ذلك المجالات التي يتأخر فيها V4-Pro عن المنافسين. في مهام الاستدلال، يتأخر الاستدلال لدى V4-Pro عن GPT-5.4 وGemini-3.1-Pro بحوالي ثلاث إلى ستة أشهر، وفقًا للتقرير التقني لدى DeepSeek.
أين يتقدم V4-Pro:
أين يتراجع V4-Pro:
في مهام السياق الطويل، يتقدم V4-Pro على النماذج مفتوحة المصدر ويهزم Gemini-3.1-Pro في CorpusQA (محاكاة تحليل المستندات الواقعي على مليون توكن)، لكنه يتراجع أمام Claude Opus 4.6 في MRCR، الذي يقيس استرجاع معلومات محددة مدفونـة بعمق ضمن نص طويل.
يمكن لـ V4-Pro العمل في Claude Code وOpenCode وأدوات ترميز ذكاء اصطناعي أخرى. ووفقًا لمسح DeepSeek الداخلي لـ 85 مطورًا استخدموا V4-Pro باعتباره وكيل الترميز الأساسي لديهم، قال 52% إنه جاهز ليكون نموذجهم الافتراضي، ومال 39% إلى نعم، وقال أقل من 9% لا. أشارت الاختبارات الداخلية لدى DeepSeek إلى أن V4-Pro يتفوق على Claude Sonnet ويقترب من Claude Opus 4.5 في مهام البرمجة الوكيلة.
صنّفت Artificial Analysis V4-Pro في المرتبة الأولى بين جميع نماذج open-weight على GDPval-AA، وهو معيار لاختبار الأعمال المعرفية ذات القيمة اقتصاديًا عبر مهام التمويل والقانون والبحث. سجل V4-Pro-Max 1,554 Elo، متقدمًا على GLM-5.1 (1,535) وعلى MiniMax’s M2.7 (1,514). تسجل Claude Opus 4.6 1,619 في نفس المعيار.
يقدم V4 “التفكير المتداخل”، والذي يحتفظ بسلسلة الفِكر الكاملة عبر استدعاءات الأدوات. في النماذج السابقة، عندما يقوم الوكيل بعدة استدعاءات لأدوات—مثل البحث في الويب، ثم تشغيل الكود، ثم البحث مرة أخرى—يتم تفريغ سياق استدلال النموذج بين الجولات. يحافظ V4 على استمرارية الاستدلال عبر الخطوات، مما يمنع فقدان السياق في سير عمل آلي معقد.
يأتي إصدار V4 في ظل نشاط كبير داخل قطاع الذكاء الاصطناعي. قامت Anthropic بشحن Claude Opus 4.7 في 16 أبريل 2026. أطلقت OpenAI GPT-5.5 في 23 أبريل 2026، مع تسعير GPT-5.5 Pro عند $30 لكل مليون توكن إدخال و$180 لكل مليون توكن إخراج. يتفوق GPT-5.5 على V4-Pro في Terminal Bench 2.0 (82.7% مقابل 70.0%)، والذي يختبر سير عمل وكلاء أوامر معقدة عبر سطر الأوامر.
أطلقت Xiaomi MiMo V2.5 Pro في 22 أبريل 2026، وقدمت قدرات تعدد وسائط كاملة (image, audio, video) عند $1 لكل $3 إدخال و(لكل )إخراج لكل مليون توكن. وأطلقت Tencent Hy3 في نفس يوم GPT-5.5.
لأجل منظور التسعير: لاحظ الرئيس التنفيذي لـ Cline Saoud Rizwan أنه لو كان Uber قد استخدم DeepSeek بدلًا من Claude، فإن ميزانية Uber للذكاء الاصطناعي لعام 2026—يُزعم أنها كانت كافية لأربعة أشهر من الاستخدام—لأصبحت تدوم سبع سنوات.
![Pricing comparison and Uber budget analysis]https://img-cdn.gateio.im/social/moments-0ee5a4bf95-cbc5686e31-8b7abd-badf29
كلا من V4-Pro وV4-Flash مرخصان بموجب MIT ومتاحتان على Hugging Face. النماذج مخصصة للنص فقط حاليًا؛ ذكرت DeepSeek أنها تعمل على قدرات متعددة الوسائط. يمكن تشغيل كلا النموذجين مجانًا على الأجهزة المحلية أو تخصيصهما وفقًا لاحتياجات الشركة.
تقوم نقاط نهاية deepseek-chat وdeepseek-reasoner الحالية لدى DeepSeek بالفعل بتوجيه V4-Flash في وضعي عدم التفكير والتفكير على التوالي. ستتوقف نقاط النهاية القديمة deepseek-chat وdeepseek-reasoner عن العمل في 24 يوليو 2026.
درّبت DeepSeek V4 جزئيًا على شرائح Huawei Ascend، متجاوزةً قيود التصدير الأمريكية. ذكرت الشركة أنه بمجرد بدء تشغيل 950 عقدة فائقة جديدة لاحقًا في عام 2026، سينخفض سعر نموذج Pro المنخفض أصلاً أكثر.
بالنسبة للشركات، قد تتغير حسابات تكلفة-منفعة هيكل التسعير. نموذج يتصدر معايير open-source بسعر $1.74 لكل مليون توكن إدخال يجعل معالجة المستندات على نطاق واسع، والمراجعة القانونية، وخطوط توليد الكود أرخص بشكل كبير مقارنةً بما كان عليه قبل ستة أشهر. يسمح سياق مليون توكن بمعالجة قواعد كود كاملة أو ملفات تنظيمية في طلب واحد بدل تقطيعها عبر عدة استدعاءات.
بالنسبة للمطورين وبناة المشاريع الفردية، يعد V4-Flash هو الاعتبار الأساسي. بسعر $0.14 للإدخال و$0.28 للإخراج لكل مليون توكن، فهو أرخص من النماذج التي كانت تُعتبر ضمن فئة الميزانية قبل عام، مع التعامل مع معظم المهام التي ينجزها إصدار Pro.