Xiaomi เปิดเผยรายละเอียดการฝึก MiMo-V2-Pro: พารามิเตอร์โมเดล 1T ใช้ GPU หลายพันเครื่อง

ข้อความจาก Gate News วันที่ 24 เมษายน — หัวหน้าทีมโมเดลภาษาขนาดใหญ่ของ Xiaomi อย่าง Luo Fuli เปิดเผยในการให้สัมภาษณ์เชิงลึกว่าโมเดล MiMo-V2-Pro มีพารามิเตอร์รวม 1 ล้านล้านตัว และต้องใช้ GPU หลายพันเครื่องสำหรับการฝึก เธอกล่าวว่าโทนสเกล 1T ถือเป็นเกณฑ์ขั้นต่ำเพื่อให้ได้ประสิทธิภาพที่เข้าใกล้ระดับ Claude Opus 4.6 และรับบัตรผ่านเข้าสู่การแข่งขันสำหรับเฟสถัดไปของ AI agents.

ในเชิงเทคนิค เวอร์ชัน Pro ใช้กลไกความสนใจแบบกระจัดกระจายอย่างรุนแรง โดยมีอัตราส่วน 7:1 ระหว่าง global attention และ sliding window attention ซึ่งช่วยควบคุมต้นทุนการอินเฟอเรนซ์สำหรับการประมวลผลบริบทระยะยาว โมเดลยังคงสถาปัตยกรรม MTP (Multi-Token Prediction) เพื่อใช้ประโยชน์จากพลังประมวลผลที่เหลือเฟือสำหรับการอินเฟอเรนซ์ที่เร็วขึ้น.

ในส่วนของการบริหาร ทีม MiMo จำนวน 100 คนมีเพียง 30-40 คนที่มีส่วนเกี่ยวข้องโดยตรงกับการปรับปรุงรอบหลัก ทีมทำงานโดยไม่มีโครงสร้างตามลำดับชั้นอย่างเป็นทางการหรือการแบ่งกลุ่มย่อยที่ชัดเจน และไม่มีเส้นตายการส่งมอบ เมื่อพบปัญหาเชิงตัวเลขที่ไม่เสถียร เช่น การฝึกที่มี loss พุ่งสูงขึ้น ทีมจะให้ความสำคัญกับการหยุดการฝึกเพื่อทำการตรวจสอบ แม้ว่าจะหมายถึงการหยุดการดำเนินงานเป็นเวลาหนึ่งหรือสองสัปดาห์ และต้องแบกรับต้นทุนด้านการคำนวณเป็นเงินหลายล้านดอลลาร์.

news.article.disclaimer

btc.bar.articles

Google ลงทุนเพิ่ม 40 พันล้านดอลลาร์ใน Anthropic: จ่ายล่วงหน้า 10 พันล้านก่อน แล้วปล่อย 30 พันล้านตามผลการดำเนินงาน พร้อมจัดสรรกำลังประมวลผล TPU 5GW

Alphabet เพิ่มการลงทุนให้กับ Anthropic อีกเป็น 40,000 ล้านดอลลาร์สหรัฐ แบ่งเป็น 2 ระยะ: เงินงวดแรก 10,000 ล้านดอลลาร์สหรัฐ ฉีดเข้ากระแสเงินสด คิดมูลค่า 380,000 ล้านดอลลาร์สหรัฐ; ส่วนที่เหลือ 30,000 ล้านดอลลาร์สหรัฐ จะปล่อยออกเป็นระยะหลังจากบรรลุเป้าหมายผลการดำเนินงานแล้ว Google Cloud จัดหาทรัพยากรคอมพิวต์ TPU 5 GW ภายใน 5 ปี; ในช่วงเวลาเดียวกัน Amazon ก็ประกาศการลงทุนสูงสุด 25,000 ล้านดอลลาร์สหรัฐเช่นกัน ซึ่งแสดงให้เห็นว่าการสนับสนุนด้านประสิทธิภาพการประมวลผลและเงินทุนของ Anthropic ได้เพิ่มพูนขึ้นอย่างสอดคล้องกัน

ChainNewsAbmedia31 นาที ที่แล้ว

IPO ของ SpaceX, OpenAI และ Anthropic อาจดึงดูดเงินมากกว่า $240 พันล้าน ซึ่งอาจส่งผลต่อสภาพคล่องของตลาดคริปโต

ข้อความข่าว Gate ประจำวันที่ 25 เมษายน — ตามรายงานของตลาด คาดว่า SpaceX จะเข้าจดทะเบียนในตลาดหลักทรัพย์ในเดือนมิถุนายน โดยมีเป้าระดมทุนมากกว่า IPO ครั้งทำสถิติของ Saudi Aramco ที่ $29 พันล้าน ขณะที่ OpenAI และ Anthropic วางแผนจะเข้าจดทะเบียนในช่วงครึ่งหลังของปี 2026 ทั้งสามบริษัทคาดว่าจะ

GateNews1 ชั่วโมง ที่แล้ว

DeepSeek-V4 เวอร์ชันตัวอย่างเปิดตัวแล้วด้วยหน้าต่างบริบท 1 ล้านโทเค็น โซลูชัน AI ของ Huawei DCS ให้การรองรับเต็มรูปแบบ

ข้อความจาก Gate News วันที่ 25 เมษายน — ได้มีการเปิดตัวอย่างเป็นทางการและทำโอเพนซอร์สเวอร์ชันตัวอย่างของ DeepSeek-V4 โดยมีการขยายหน้าต่างบริบทเป็น 1 ล้านโทเค็น และแนะนำ KV Cache แบบ sliding window พร้อม

GateNews2 ชั่วโมง ที่แล้ว

การขาดแคลน GPU กลับมาอีกครั้ง ขณะที่ Microsoft และ Amazon กระชับการจัดสรร; สตาร์ทอัพ AI เผชิญการขึ้นราคา 32% และคิวจนถึงสิ้นปี

ข่าวประตู (Gate News) วันที่ 25 เมษายน — การขาดแคลน GPU กำลังกลับมาอีกครั้ง ขณะที่ผู้ให้บริการคลาวด์รายใหญ่ รวมถึง Microsoft และ Amazon มุ่งจัดสรรกำลังประมวลผลไปยังทีมภายในและลูกค้ารายใหญ่ เช่น OpenAI และ Anthropic ส่งผลให้สตาร์ทอัพ AI ขนาดเล็กต้องเผชิญราคาที่เพิ่มขึ้น ระยะเวลารอที่ยาวนานขึ้น และเงื่อนไขสัญญาที่เข้มงวดกว่าเดิม

GateNews3 ชั่วโมง ที่แล้ว

Nvidia ปรับใช้เอเจนต์ AI Codex ของ OpenAI ทั่วทั้งองค์กรบนโครงสร้างพื้นฐาน Blackwell

ข่าวประจำ Gate วันที่ 25 เมษายน — Nvidia ได้เปิดตัว Codex ของ OpenAI ซึ่งเป็นเอเจนต์ AI ที่ขับเคลื่อนด้วย GPT-5.5 ให้กับพนักงานทั้งหมดทั่วทั้งองค์กร หลังจากการทดสอบที่ประสบความสำเร็จกับพนักงานราว 10,000 คน ตามรายงานการสื่อสารภายในจากซีอีโอ Jensen Huang และ CEO ของ OpenAI Sam Altman. Codex ถูกออกแบบมาเพื่อช่วยใน

GateNews4 ชั่วโมง ที่แล้ว

กระทรวงการต่างประเทศของสหรัฐฯ เตือนเกี่ยวกับการกลั่นแบบจำลอง AI ของ DeepSeek

กระทรวงการต่างประเทศสหรัฐออกหนังสือเวียนเมื่อวันที่ 24 เมษายนถึงสถานทูตและสถานกงสุลทั่วโลก โดยเตือนรัฐบาลต่างชาติให้ระวังความพยายามของจีนในการคัดลอกระบบ AI ของอเมริกาผ่านการกลั่น ตามรายงานของ Reuters หนังสือเวียนดังกล่าว

CryptoFrontier4 ชั่วโมง ที่แล้ว
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น