DeepSeek เปิดตัวซีรีส์โมเดลโอเพนซอร์ส V4 ด้วยพารามิเตอร์ 1.6T และใบอนุญาต MIT

ข่าวประตูเมือง (Gate News) วันที่ 24 เมษายน — DeepSeek ได้เปิดตัวซีรีส์โมเดลโอเพนซอร์ส V4 ภายใต้ใบอนุญาต MIT โดยน้ำหนัก (weights) พร้อมใช้งานแล้วบน Hugging Face และ ModelScope ซีรีส์นี้ประกอบด้วยโมเดล (MoE) แบบ mixture-of-experts จำนวน 2 รุ่น ได้แก่ V4-Pro มีพารามิเตอร์รวม 1.6 ล้านล้านตัว และเปิดใช้งาน 49 พันล้านตัวต่อโทเค็น และ V4-Flash มีพารามิเตอร์รวม 284 พันล้านตัว และเปิดใช้งาน 13 พันล้านตัวต่อโทเค็น ทั้งสองรองรับหน้าต่างบริบท (context window) 1 ล้านโทเค็น

สถาปัตยกรรมประกอบด้วยการอัปเกรดหลัก 3 ประการ: กลไกความสนใจแบบไฮบริดที่ผสาน (CSA) (compressed sparse attention) และ (HCA) (heavily compressed attention) ซึ่งช่วยลดค่าใช้จ่ายในการรองรับบริบทระยะยาวได้อย่างมีนัยสำคัญ—ค่า FLOPs สำหรับการอินเฟอเรนซ์ของ V4-Pro ในบริบท 1M อยู่ที่เพียง 27% ของ V3.2 และ (VRAM สำหรับแคช KV ที่ใช้จัดเก็บข้อมูลประวัติศาสตร์ระหว่างการอินเฟอเรนซ์) อยู่ที่เพียง 10% ของ V3.2; การเชื่อมต่อไฮเปอร์ลิงก์แบบ manifold-constrained (mHC) ที่มาแทนการเชื่อมต่อ residual แบบดั้งเดิมเพื่อเพิ่มเสถียรภาพของการส่งสัญญาณข้ามเลเยอร์ และตัวเพิ่มประสิทธิภาพ (optimizer) Muon เพื่อการฝึกที่บรรจบเร็วขึ้น การพรีเทรนนิ่งใช้ข้อมูลมากกว่า 32 ล้านล้านโทเค็น

การโพสต์เทรนนิ่งใช้แนวทางแบบสองขั้นตอน: ขั้นแรกฝึกผู้เชี่ยวชาญเฉพาะโดเมนผ่านการ fine-tuning แบบมีผู้สอน (supervised fine-tuning) (SFT) และการเรียนรู้เสริมด้วยการเสริมแรง GRPO จากนั้นจึงรวมเข้าด้วยกันเป็นโมเดลเดียวผ่านการกลั่นความรู้แบบออนไลน์ V4-Pro-Max (highest inference mode) อ้างว่าเป็นโมเดลโอเพนซอร์สที่แข็งแกร่งที่สุด พร้อมตัวชี้วัดด้านการเขียนโค้ดระดับแนวหน้า และช่องว่างที่แคบลงอย่างมากเมื่อเทียบกับโมเดลยุคหน้าแบบปิด (closed-source) ในงานด้านการให้เหตุผลและงานของเอเจนต์ V4-Flash-Max บรรลุประสิทธิภาพด้านการให้เหตุผลระดับ Pro เมื่อมีงบประมาณการคำนวณเพียงพอ แต่ถูกจำกัดด้วยขนาดพารามิเตอร์ในงานด้านความรู้ล้วนและงานเอเจนต์ที่ซับซ้อน น้ำหนักถูกจัดเก็บในความแม่นยำแบบผสม FP4+FP8.

news.article.disclaimer

btc.bar.articles

หน่วยงานกำกับดูแลของสวิตเซอร์แลนด์ FINMA เตือนว่าเครื่องมือ AI ของ Anthropic อย่าง Mythos ก่อความเสี่ยงทางการเงิน

ข้อความข่าว Gate News 24 เมษายน — สำนักงานกำกับดูแลตลาดการเงินของสวิตเซอร์แลนด์ (FINMA) ระบุว่า การอนุญาตให้ธนาคารสามารถนำเครื่องมือปัญญาประดิษฐ์ของ Anthropic อย่าง Mythos มาใช้ได้อย่างรวดเร็วและสะดวกสบายจะก่อให้เกิดความเสี่ยงร้ายแรงต่อ

GateNews4 นาที ที่แล้ว

DeepSeek V4 เปิดตัวพร้อมหน้าต่างบริบท 1M; ชิป Huawei Ascend และ Cambricon ทำได้เต็มรูปแบบ

ข้อความข่าว Gate ประจำวันที่ 24 เมษายน — DeepSeek V4-Pro และ DeepSeek V4-Flash ได้รับการปล่อยอย่างเป็นทางการและเปิดซอร์สเมื่อวันที่ 24 เมษายน โดยมีความยาวการประมวลผลบริบทเพิ่มขึ้นอย่างมีนัยสำคัญจาก 128K เป็น 1M ซึ่งคิดเป็นการเพิ่มความจุเกือบ 10 เท่า โดย Huawei Computing ประกาศว่า ผลิตภัณฑ์ซูเปอร์โหนด Ascend ของบริษัท

GateNews53 นาที ที่แล้ว

Fere AI เสร็จสิ้นการระดมทุน 1.3M ดอลลาร์ ที่นำโดย Ethereal Ventures

ข่าว Gate ประจำวัน 24 เมษายน — Fere AI ซึ่งเป็นแพลตฟอร์มเอเจนต์การเทรดสินทรัพย์ดิจิทัลที่ขับเคลื่อนด้วย AI ประกาศเสร็จสิ้นการระดมทุนมูลค่า 1.3 ล้านดอลลาร์ ซึ่งนำโดย Ethereal Ventures โดย Galaxy Vision Hill และ Kosmos Ventures เข้าร่วมด้วย แพลตฟอร์มรองรับเครือข่ายข้ามสายรวมถึง Ethereum,

GateNews1 ชั่วโมง ที่แล้ว

Anthropic ย้อนกลับการเปลี่ยนแปลงของ Claude Code หลังคุณภาพลดลง; แก้ไขทั้งหมดเสร็จสิ้นแล้ว

ข้อความ Gate News วันที่ 24 เมษายน — Anthropic ได้รับทราบว่าคุณภาพของ Claude Code เพิ่งลดลง และยืนยันว่าปัญหาที่เกี่ยวข้องทั้งหมดได้รับการแก้ไขแล้วด้วยการย้อนกลับ (rollbacks) และการแก้ไข (fixes) ปัญหาดังกล่าวเกิดจากการปรับผลิตภัณฑ์และพรอมป์ต์จำนวนสามรายการที่ทำขึ้นระหว่างช่วงต้นถึงกลางเดือนเมษายน ในวันที่ 4 มีนาคม

GateNews2 ชั่วโมง ที่แล้ว

Kaelan ผู้ร่วมก่อตั้ง NeoSoul: อุตสาหกรรม AI ควรเปิดพื้นที่ให้ของเล่นมีอยู่ นวัตกรรมมักเริ่มต้นจากผลิตภัณฑ์เชิงทดลอง

ข้อความจาก Gate News วันที่ 24 เมษายน — ในงานเสวนาที่ฮ่องกงเกี่ยวกับการเงินอัจฉริยะที่เข้ารหัส NeoSoul ร่วมก่อตั้งโดย Kaelan ได้แบ่งปันมุมมองเกี่ยวกับการประเมินโครงการ AI ในระยะแรกเริ่ม ซึ่งเป็นอุตสาหกรรม AI ที่พัฒนารวดเร็ว โดยนอกเหนือจากการประเมินผลิตภัณฑ์ปัจจุบันแล้ว ทีมงานต้องแสดงให้เห็นถึงความสามารถในการก้าวทันความสามารถของโมเดลพื้นฐานอย่างต่อเนื่อง เขากล่าวว่า ใน

GateNews3 ชั่วโมง ที่แล้ว

Meta เตรียมติดตั้งชิป AWS Graviton5 หลายสิบล้านชิ้นในดีลมูลค่าหลายปีระดับพันล้านดอลลาร์

ข้อความข่าว Gate วันที่ 24 เมษายน — Meta ได้ลงนามในข้อตกลงหลายปีร่วมกับ Amazon Web Services เพื่อปรับใช้โปรเซสเซอร์ Graviton5 หลายสิบล้านตัวสำหรับโครงสร้างพื้นฐานด้าน AI ทำให้ Meta เป็นหนึ่งในลูกค้ารายใหญ่ที่สุดของ AWS ด้าน Graviton5 ทั่วโลก ข้อตกลงดังกล่าว ครอบคลุมระยะเวลา 3 ถึง 5 ปี และมีมูลค่าเป็นพันล้านด

GateNews3 ชั่วโมง ที่แล้ว
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น