ข่าวประตูเมือง (Gate News) วันที่ 24 เมษายน — DeepSeek ได้เปิดตัวซีรีส์โมเดลโอเพนซอร์ส V4 ภายใต้ใบอนุญาต MIT โดยน้ำหนัก (weights) พร้อมใช้งานแล้วบน Hugging Face และ ModelScope ซีรีส์นี้ประกอบด้วยโมเดล (MoE) แบบ mixture-of-experts จำนวน 2 รุ่น ได้แก่ V4-Pro มีพารามิเตอร์รวม 1.6 ล้านล้านตัว และเปิดใช้งาน 49 พันล้านตัวต่อโทเค็น และ V4-Flash มีพารามิเตอร์รวม 284 พันล้านตัว และเปิดใช้งาน 13 พันล้านตัวต่อโทเค็น ทั้งสองรองรับหน้าต่างบริบท (context window) 1 ล้านโทเค็น
สถาปัตยกรรมประกอบด้วยการอัปเกรดหลัก 3 ประการ: กลไกความสนใจแบบไฮบริดที่ผสาน (CSA) (compressed sparse attention) และ (HCA) (heavily compressed attention) ซึ่งช่วยลดค่าใช้จ่ายในการรองรับบริบทระยะยาวได้อย่างมีนัยสำคัญ—ค่า FLOPs สำหรับการอินเฟอเรนซ์ของ V4-Pro ในบริบท 1M อยู่ที่เพียง 27% ของ V3.2 และ (VRAM สำหรับแคช KV ที่ใช้จัดเก็บข้อมูลประวัติศาสตร์ระหว่างการอินเฟอเรนซ์) อยู่ที่เพียง 10% ของ V3.2; การเชื่อมต่อไฮเปอร์ลิงก์แบบ manifold-constrained (mHC) ที่มาแทนการเชื่อมต่อ residual แบบดั้งเดิมเพื่อเพิ่มเสถียรภาพของการส่งสัญญาณข้ามเลเยอร์ และตัวเพิ่มประสิทธิภาพ (optimizer) Muon เพื่อการฝึกที่บรรจบเร็วขึ้น การพรีเทรนนิ่งใช้ข้อมูลมากกว่า 32 ล้านล้านโทเค็น
การโพสต์เทรนนิ่งใช้แนวทางแบบสองขั้นตอน: ขั้นแรกฝึกผู้เชี่ยวชาญเฉพาะโดเมนผ่านการ fine-tuning แบบมีผู้สอน (supervised fine-tuning) (SFT) และการเรียนรู้เสริมด้วยการเสริมแรง GRPO จากนั้นจึงรวมเข้าด้วยกันเป็นโมเดลเดียวผ่านการกลั่นความรู้แบบออนไลน์ V4-Pro-Max (highest inference mode) อ้างว่าเป็นโมเดลโอเพนซอร์สที่แข็งแกร่งที่สุด พร้อมตัวชี้วัดด้านการเขียนโค้ดระดับแนวหน้า และช่องว่างที่แคบลงอย่างมากเมื่อเทียบกับโมเดลยุคหน้าแบบปิด (closed-source) ในงานด้านการให้เหตุผลและงานของเอเจนต์ V4-Flash-Max บรรลุประสิทธิภาพด้านการให้เหตุผลระดับ Pro เมื่อมีงบประมาณการคำนวณเพียงพอ แต่ถูกจำกัดด้วยขนาดพารามิเตอร์ในงานด้านความรู้ล้วนและงานเอเจนต์ที่ซับซ้อน น้ำหนักถูกจัดเก็บในความแม่นยำแบบผสม FP4+FP8.
btc.bar.articles
หน่วยงานกำกับดูแลของสวิตเซอร์แลนด์ FINMA เตือนว่าเครื่องมือ AI ของ Anthropic อย่าง Mythos ก่อความเสี่ยงทางการเงิน
DeepSeek V4 เปิดตัวพร้อมหน้าต่างบริบท 1M; ชิป Huawei Ascend และ Cambricon ทำได้เต็มรูปแบบ
Fere AI เสร็จสิ้นการระดมทุน 1.3M ดอลลาร์ ที่นำโดย Ethereal Ventures
Anthropic ย้อนกลับการเปลี่ยนแปลงของ Claude Code หลังคุณภาพลดลง; แก้ไขทั้งหมดเสร็จสิ้นแล้ว
Kaelan ผู้ร่วมก่อตั้ง NeoSoul: อุตสาหกรรม AI ควรเปิดพื้นที่ให้ของเล่นมีอยู่ นวัตกรรมมักเริ่มต้นจากผลิตภัณฑ์เชิงทดลอง
Meta เตรียมติดตั้งชิป AWS Graviton5 หลายสิบล้านชิ้นในดีลมูลค่าหลายปีระดับพันล้านดอลลาร์