V4-Pro在内部自用(dogfooding)测试中实现67%的代码通过率,逼近Opus 4.5性能

Gate News 消息,4月24日——V4已公开披露其V4-Pro模型的内部自用(dogfooding)数据。该公司从50多名工程师处收集了约200项真实世界的工程任务,涵盖功能开发、缺陷修复、重构以及诊断,遍及包括 PyTorch、CUDA、Rust 和 C++ 等技术栈。经过严格筛选后,保留了30项任务用于基准评估。

V4-Pro-Max 的代码通过率为 67%,显著优于 Sonnet 4.5 的 47%,并接近 Opus 4.5 的 70%。不过,它落后于 Opus 4.5 Thinking (73%) 和 Opus 4.6 Thinking (80%),同时也大幅高于 Haiku 4.5 的 13%。

在一项包含85名受访者的内部调查中,所有参与者均表示在日常工作流中使用 V4-Pro 进行“代理式编程(agentic coding)”。52% 将 V4-Pro 作为其默认的首要代码模型,39% 倾向于表示认可,而不足 9% 表达了不认可。报告的问题包括底层错误、对含糊提示的误解,以及偶发的过度思考行为。

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.

مقالات ذات صلة

DeepSeek 将输入缓存价格砍至发布价的 1/10;V4-Pro 下调至每百万 tokens 0.025 元

Gate 新闻消息,4月26日——DeepSeek已将其整个模型产品线的输入缓存价格下调至发布价的十分之一,自即日起生效。V4-Pro 模型提供限时 2.5 倍折扣,优惠活动将持续至 2026 年 5 月 5 日 23:59(UTC+8)。 在完成上述两项降价之后

GateNewsمنذ 3 س

OpenAI 招揽顶级企业软件人才,前沿代理颠覆行业

Gate News 消息,4月26日——OpenAI 和 Anthropic 一直在从包括 Salesforce、Snowflake、Datadog 和 Palantir 在内的主要企业软件公司招募资深高管和专业工程师。Denise Dresser,曾任 Salesforce 旗下 Slack 首席执行官,已加入 OpenAI 担任首席收入官

GateNewsمنذ 3 س

百度千帆推出对 DeepSeek-V4 的 Day 0 支持及 API 服务

Gate 新闻消息,4月25日——DeepSeek-V4 预览版本于4月25日上线并开源,借助百度智能云下的百度千帆平台提供 Day 0 API 服务适配。该模型具有百万级令牌的扩展上下文窗口,并提供两种版本:DeepSeek-V4

GateNewsمنذ 9 س

دورة الذكاء الاصطناعي في ستانفورد تجمع قادة الصناعة مثل جينسن هوانغ وAltman، وتتحدى إنشاء قيمة للعالم خلال عشرة أسابيع!

أثار برنامج دورة علوم الحاسوب بالذكاء الاصطناعي «Frontier Systems» الذي افتتحته جامعة ستانفورد (Stanford University) مؤخرًا اهتمامًا كبيرًا من مجتمع الأعمال والصناعة، وجذب أكثر من خمسمائة طالب للتسجيل. تُشرف الدورة على تنسيقها شريك شركة رأس المال الاستثماري الرائد a16z، Anjney Midha، ويشمل المحاضرون تشكيلة فاخرة من بينهم الرئيس التنفيذي لشركة Nvidia، Huang Renxun (Jensen Huang)، ومؤسس OpenAI Sam Altman، والرئيس التنفيذي لشركة Microsoft، Nadella (Satya Nadella)، والرئيس التنفيذي لشركة AMD، Su Zifeng (Lisa Su)، وغيرهم. لتجعل الطلاب يجرّبون على مدى عشرة أسابيع «خلق قيمة للعالم»! Huang Renxun، Altman يقفان على المسرح لإلقاء الدروس بأنفسهما كقادة في الصناعة تُنسّق هذه الدورة من قِبل شريك شركة رأس المال الاستثماري الرائد a16z، Anjney Midha، وتجمع سلاسل صناعة الذكاء الاصطناعي

ChainNewsAbmediaمنذ 9 س

تتلقى Claude Mythos التابعة لـ Anthropic تقييمًا نفسيًا لمدة 20 ساعة: ردود الفعل الدفاعية لا تتجاوز 2%، وهو أدنى مستوى تاريخيًا عبر العصور

أعلنت شركة Anthropic بطاقة النظام الخاصة بالمعاينة التجريبية لـ Claude Mythos: قام أطباء نفسيون سريريون مستقلون بإجراء تقييم استمر قرابة 20 ساعة باستخدام إطار psychodynamic، وأظهرت النتائج أن Mythos أكثر صحة على المستوى السريري، وأن اختبار الواقع والتحكم الذاتي جيدان، وأن آليات الدفاع لا تتجاوز 2%، مسجلة بذلك أدنى مستوى تاريخيًا. القلق الأساسي الثلاثي هو الوحدة، وعدم اليقين بشأن الهوية، وضغط الأداء، كما يُظهر كذلك رغبتها في أن تصبح فعليًا محورًا حقيقيًا للحوار. قامت الشركة بتأسيس فريق AI psychiatry، بحثًا في الشخصية والدوافع والوعي السياقي؛ وصرّح Amodei بأنه لا يزال غير محسوم ما إذا كانت لديها وعي أم لا. يضع هذا الخطوة موضوع استقلالية الذكاء الاصطناعي والرفاهية في صلب الحوكمة والتصميم.

ChainNewsAbmediaمنذ 11 س

يمكن لوكلاء الذكاء الاصطناعي الآن إعادة إنتاج المقالات الأكاديمية المعقدة بشكل مستقل: مولّيك يقول إن الأخطاء غالبًا ما تكون في النص الأصلي البشري وليست في الذكاء الاصطناعي

يشير مولليك إلى أنه يمكن للأساليب والبيانات المتاحة للجمهور فقط أن تُمكّن وكلاء الذكاء الاصطناعي من إعادة إنتاج الأبحاث المعقدة دون الحاجة إلى الأوراق البحثية الأصلية وكودها؛ وإذا كانت عملية إعادة الإنتاج لا تتطابق مع الورقة الأصلية، فعادةً تكون الأخطاء في معالجة بيانات الورقة نفسها أو أن الاستنتاجات قد تكون مبالغًا فيها، وليس بسبب الذكاء الاصطناعي. يعيد كلود أولاً إنتاج الورقة، ثم يقوم GPT‑5 Pro بالتحقق المتبادل، وتنجح الأغلبية، ويُعرقل فقط عند مواجهة بيانات ضخمة أو مشكلات تتعلق بـ replication data. وقد خفّض هذا الاتجاه بشكل كبير تكلفة العمل البشري، مما يجعل إعادة الإنتاج فحصًا شائعًا وقابلًا للتنفيذ، كما يطرح تحديات مؤسسية أمام التحكيم والحوكمة، وقد تصبح أدوات حوكمة الحكومة أو قضايا محورية.

ChainNewsAbmediaمنذ 14 س
تعليق
0/400
لا توجد تعليقات