V4-Pro ทำอัตราคะแนนผ่านการเขียนโค้ด 67% ในการทดสอบการใช้งานจริงภายใน ใกล้เคียงประสิทธิภาพ Opus 4.5

ข้อความจาก Gate News วันที่ 24 เมษายน — V4 ได้เปิดเผยข้อมูลการใช้งานจริงภายใน (dogfooding) สำหรับโมเดล V4-Pro ต่อสาธารณะแล้ว บริษัทได้รวบรวมงานวิศวกรรมในโลกจริงประมาณ 200 งานจากวิศวกรมากกว่า 50 คน ครอบคลุมการพัฒนาฟีเจอร์ การแก้ไขบั๊ก การปรับโครงสร้างโค้ด (refactoring) และการวินิจฉัย (diagnostics) ข้ามสแตกเทคโนโลยี รวมถึง PyTorch, CUDA, Rust และ C++ หลังจากการคัดกรองอย่างเข้มงวด คงเหลือ 30 งานเพื่อการประเมินผลการทดสอบมาตรฐาน (benchmark)

V4-Pro-Max ทำอัตราคะแนนผ่านการเขียนโค้ด 67% ซึ่งเหนือกว่า Sonnet 4.5 ที่ 47% อย่างมีนัยสำคัญ และเข้าใกล้ Opus 4.5 ที่ 70% อย่างไรก็ตาม ยังตามหลัง Opus 4.5 Thinking (73%) และ Opus 4.6 Thinking (80%) ขณะเดียวกันก็เหนือกว่า Haiku 4.5 อย่างมากที่ 13%.

ในการสำรวจภายในกลุ่มตัวอย่าง 85 คน ผู้เข้าร่วมทั้งหมดรายงานว่าใช้ V4-Pro สำหรับการเขียนโค้ดแบบเชิงตัวแทน (agentic coding) ในเวิร์กโฟลว์ประจำวัน 52% เห็นด้วยให้ V4-Pro เป็นโมเดลหลักเริ่มต้นสำหรับการเขียนโค้ด 39% โน้มเอียงไปทางการอนุมัติ และน้อยกว่า 9% แสดงความไม่เห็นด้วย ปัญหาที่รายงานรวมถึงข้อผิดพลาดระดับต่ำ การตีความที่คลาดเคลื่อนต่อพรอมพ์ที่กำกวม และพฤติกรรมการคิดมากเกินไปเป็นครั้งคราว

news.article.disclaimer

btc.bar.articles

AI Agent สามารถสร้างซ้ำงานวิจัยทางวิชาการที่ซับซ้อนได้อย่างอิสระแล้ว: Mollick ระบุว่าข้อผิดพลาดส่วนใหญ่มาจากต้นฉบับของมนุษย์ ไม่ใช่จาก AI

มอลลิกชี้ให้เห็นว่า วิธีการแบบเปิดและข้อมูลที่มีอยู่ก็เพียงพอให้ทำให้ AI agent สามารถทำซ้ำงานวิจัยที่ซับซ้อนได้โดยไม่ต้องมีต้นฉบับบทความวิจัยและโค้ดเดิม หากการทำซ้ำไม่ตรงกับบทความต้นฉบับ สาเหตุส่วนใหญ่จะเป็นข้อผิดพลาดในการประมวลผลข้อมูลของบทความเองหรือข้อสรุปที่ถูกทำให้มากเกินไป ไม่ใช่เพราะ AI คลอดด์ทำซ้ำบทความก่อน แล้วจึงให้ GPT‑5 Pro ตรวจสอบข้ามกัน ส่วนใหญ่ประสบความสำเร็จ เพียงแต่ติดขัดเมื่อข้อมูลมีขนาดใหญ่มากหรือมีปัญหากับ replication data เทรนด์นี้ช่วยลดต้นทุนด้านแรงงานได้อย่างมาก ทำให้การทำซ้ำกลายเป็นการทดสอบที่สามารถทำได้อย่างแพร่หลาย และยังได้เสนอความท้าทายเชิงระบบด้านการกำกับดูแลและการตรวจรับรอง โดยเครื่องมือสำหรับการกำกับดูแลของรัฐบาลหรือจะกลายเป็นประเด็นสำคัญ

ChainNewsAbmedia1 ชั่วโมง ที่แล้ว

OpenAI รวม Codex เข้ากับโมเดลหลักตั้งแต่ GPT-5.4 และยุติไลน์การเขียนโค้ดแบบแยกเดี่ยว

ข่าว Gate ฉบับวันที่ 26 เมษายน — รอเมน ฮูเอต์ หัวหน้าฝ่ายประสบการณ์นักพัฒนาของ OpenAI เปิดเผยในแถลงการณ์ล่าสุดบน X ว่า Codex ซึ่งเป็นไลน์โมเดลสำหรับการเขียนโค้ดเฉพาะทางที่บริษัทดูแลรักษาอย่างอิสระ ได้ถูกรวมเข้ากับโมเดลหลักตั้งแต่ GPT-5.4 เป็นต้นไป และจะไม่รับการอัปเดตแยกต่างหากอีกต่อไป

GateNews1 ชั่วโมง ที่แล้ว

Salesforce จะจ้างบัณฑิตใหม่และนักศึกษาฝึกงาน 1,000 คนเพื่อผลิตภัณฑ์ด้าน AI และปรับเพิ่มคำแนะนำรายได้ FY2026

ข่าวจาก Gate ฉบับวันที่ 26 เมษายน — Salesforce จะจ้างบัณฑิตใหม่และนักศึกษาฝึกงานจำนวน 1,000 คนเพื่อทำงานในผลิตภัณฑ์ด้าน AI รวมถึง Agentforce และ Headless360 ขณะที่บริษัทขยายธุรกิจซอฟต์แวร์ด้าน AI ซีอีโอ Marc Benioff ประกาศบน X. บริษัทได้ปรับเพิ่มคำแนะนำรายได้สำหรับปีงบประมาณ 2026 เป็นระหว่าง 41.45 พันล้านดอลลาร์สหรัฐ ถึง 41.55 พันล้านดอลลาร์สหรัฐ

GateNews1 ชั่วโมง ที่แล้ว

Alibaba Cloud เปิดตัว Qwen-Image-2.0-Pro พร้อมระบบรวมการสร้างภาพจากข้อความและการแก้ไข รองรับการแสดงผลข้อความหลายภาษา

ข้อความจาก Gate News ประจำวันที่ 26 เมษายน — แพลตฟอร์ม Alibaba Cloud Bailian ได้เปิดตัว Qwen-Image-2.0-Pro ซึ่งเป็นเวอร์ชันที่ครบฟีเจอร์ของตระกูล Qwen-Image-2.0 โดยรวมการสร้างภาพจากข้อความและการแก้ไขภาพไว้ในโมเดลเดียว ผู้ใช้สามารถปรับเปลี่ยนวัตถุ ข้อความ และสไตล์ได้โดยตรงผ่านคำสั่งภาษาธรรมชาติ

GateNews3 ชั่วโมง ที่แล้ว

DeepSeek V4-Pro API ลดราคา 75% ถึงวันที่ 5 พฤษภาคม ราคาขาออกลดลงเหลือ $0.87 ต่อหนึ่งล้านโทเค็น

ข้อความจาก Gate News วันที่ 26 เมษายน — DeepSeek ประกาศส่วนลด 75% แบบจำกัดเวลาสำหรับราคาบริการ V4-Pro API มีผลถึงวันที่ 5 พฤษภาคม เวลา 15:59 UTC หลังจากส่วนลด ราคาต่อหนึ่งล้านโทเค็นคือ: อินพุตแคชที่เข้า $0.03625

GateNews4 ชั่วโมง ที่แล้ว

Anthropic ปรับใช้มาตรการคุ้มครองการเลือกตั้งสำหรับ Claude ก่อนการเลือกตั้งกลางเทอมปี 2026

Anthropic ประกาศเมื่อวันศุกร์ถึงมาตรการเพื่อความซื่อสัตย์ในการเลือกตั้งชุดหนึ่ง ซึ่งออกแบบมาเพื่อป้องกันไม่ให้แชตบอท AI ของ Claude ถูกนำไปใช้เป็นอาวุธในการเผยแพร่ข้อมูลบิดเบือนหรือเพื่อชักจูงผู้มีสิทธิเลือกตั้ง ก่อนการเลือกตั้งกลางเทอมสหรัฐฯ ปี 2026 และการแข่งขันสำคัญอื่นๆ ทั่วโลกในปีนี้ โดยบริษัทมีฐานอยู่ในซานฟรานซิสโก

CryptoFrontier9 ชั่วโมง ที่แล้ว
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น