ผู้ก่อตั้ง DeepSeek 梁文鋒 ได้ยืนยันด้วยตนเองในการสื่อสารภายในว่า โมเดลเรือธงรุ่นใหม่ V4 จะเปิดตัวอย่างเป็นทางการในช่วงปลายเดือนเมษายน ข้อมูลที่หลุดออกมาแสดงให้เห็นว่าจำนวนพารามิเตอร์รวมเข้าใกล้ 1 ล้านล้าน รองรับบริบทได้ราว 100 ล้าน tokens และยังจะรันได้อย่างเต็มรูปแบบบนชิปหัวเว่ย Ascend ทำให้ถูกมองว่าเป็นก้าวสำคัญของการที่จีนก้าวข้ามการพึ่งพา NVIDIA ของ AI
(ข้อมูลก่อนหน้า: DeepSeek V4 ปฏิเสธ NVIDIA ไปซื้อ Huawei! อาลีบาบา ByteDance Tencent แย่งกันซื้อชิป Ascend 950PR)
(ข้อมูลเพิ่มเติม: DeepSeek เปิดตัว “โหมดผู้เชี่ยวชาญ” และ “โหมดภาพ” V4 กำลังอุ่นเครื่องครั้งสุดท้ายก่อนเปิดตัวอย่างเป็นทางการ?)
ตามที่สื่อ Sina Finance อ้างคำบอกเล่าจากแหล่งข่าววงใน ผู้ก่อตั้ง DeepSeek 梁文鋒 ได้เปิดเผยแล้วว่าโมเดลภาษาขนาดใหญ่เรือธงรุ่นใหม่ DeepSeek V4 จะเปิดตัวอย่างเป็นทางการในช่วงปลายเดือนเมษายน แม้ทางการยังไม่ได้ประกาศวันเวลาที่แน่ชัด แต่ชุมชนผู้พัฒนาได้สัมผัสสัญญาณการอุ่นเครื่องมาก่อนแล้ว: เวอร์ชันตัวแปร V4-Lite กำลังอยู่ในการทดสอบตามจุดเชื่อมต่อ API ความเร็วการอนุมานเพิ่มขึ้น 30% เมื่อเทียบกับรุ่นก่อน และอัตราการเรียกคืนบริบท 128K tokens อยู่ที่ 94%
จากข้อมูลที่หลุดออกมาในตอนนี้ ซึ่งยังไม่ได้รับการยืนยันอย่างเป็นทางการ สถาปัตยกรรมของ V4 ยังคงใช้การออกแบบ Mixture-of-Experts(MoE) จำนวนพารามิเตอร์รวมอยู่ที่ราว 1 ล้านล้าน แต่สำหรับแต่ละ token แล้ว พารามิเตอร์ที่ถูกใช้งานจริงเพียงราว 37 พันล้าน ซึ่งทำให้ยังคงรักษา “สไตล์นักคำนวณที่ประณีต” ของ DeepSeek ไว้ในแง่ประสิทธิภาพด้านการคำนวณ
ส่วนของหน้าต่างบริบท: V4 ผ่านโมดูล Engram ใหม่ มีแนวโน้มว่าจะรองรับบริบทแบบอัลตร้ายาว 1 ล้าน tokens เพื่อสู้กับโมเดลชั้นนำในปัจจุบัน แนวคิดหลักของ Engram คือการค้นหาความจำแบบมีเงื่อนไข ทำให้โมเดลเข้าถึงความรู้ด้วยความซับซ้อน O(1) แทนที่จะขยายแบบเชิงเส้นตามความยาวของลำดับ
ในด้านความสามารถ ชุดการทดสอบเกณฑ์ที่หลุดออกมาระบุว่า HumanEval ทำได้ 90% และ SWE-bench Verified เกิน 80% หากข้อมูลเป็นความจริง ก็จะเข้าใกล้โมเดลเรือธงหลักในปัจจุบันเช่นกัน ด้านมัลติโหมด V4 รองรับการป้อนข้อมูลทั้งข้อความ รูปภาพ และวิดีโอโดยกำเนิด ส่วนราคาอยู่ที่ประมาณ $0.30/MTok(อินพุต) ต่อเนื่องกลยุทธ์ราคาต่ำของ DeepSeek
นอกเหนือจากสเปกทางเทคนิค จุดที่ได้รับความสนใจจากภายนอกมากที่สุดของ V4 คือการเปลี่ยนผ่านด้านกลยุทธ์ฮาร์ดแวร์อย่างสิ้นเชิง: ทางการระบุว่าโมเดลทั้งตัวจะถูกรันบนชิปหัวเว่ย Ascend 950 PR อย่างสมบูรณ์ และไม่พึ่งพา GPU ของ NVIDIA
การตัดสินใจนี้มีผลกระทบมากกว่าตัว DeepSeek เอง อาลีบาบา ByteDance และ Tencent ได้สั่งซื้อชิปเจเนอเรชันถัดไปของหัวเว่ยเป็นจำนวนมากแล้ว หาก V4 สามารถยืนยันได้ว่า Ascend สามารถรองรับความต้องการในการฝึกและการอนุมานของโมเดลเรือธงระดับสูงได้ นี่จะเป็นตัวอย่างภาคปฏิบัติที่น่าเชื่อถือที่สุดในขณะนี้สำหรับห่วงโซ่อุตสาหกรรม AI ของจีนในการทำให้เทคโนโลยีชิปเป็นของตนเอง
มาตรการควบคุมการส่งออกของสหรัฐที่มีต่อ NVIDIA ในบริบทนี้ กลับอาจกลายเป็นตัวเร่งให้ระบบนิเวศอิสระของจีนเติบโตได้อย่างรวดเร็ว
btc.bar.articles
การฟ้องร้องระหว่างมัสก์กับซีอีโอของ OpenAI เริ่มพิจารณาคดีวันนี้! Elon Musk โกรธจัด: Altman คนหลอกลวง
Gemini เปิดตัวการเทรดแบบ Agentic สำหรับการเทรดอัตโนมัติที่ขับเคลื่อนด้วย AI
พนักงาน Google กว่า 580 คน เรียกร้องให้ซีอีโอยับยั้งสัญญา AI ของ Pentagon
พ่อของ AlphaGo ทุ่มทุนรอบเมล็ดพันธุ์ 1,100 ล้านดอลลาร์สหรัฐ: ใหญ่ที่สุดในยุโรป มูลค่า 5.1 พันล้านดอลลาร์สหรัฐ
จำนวนงานของ S&P 500 ลดลง 400,000 ขณะที่กระแส AI ปรับโฉมอเมริกาเชิงธุรกิจ
Consensys, Joseph Lubin บริจาค 30,000 ETH ให้กับ DeFi United