searchresults
liveNews.Today
03:21

ข้อมูลการฝึกของ DeepSeek V4 เพิ่มเป็นสองเท่าเป็น 33T กระตุ้นความไม่เสถียรที่ทำให้การปล่อยล่าช้า

ข้อความ Gate News, 24 เมษายน — รายงานทางเทคนิคของ DeepSeek V4 เปิดเผยว่า V4-Flash และ V4-Pro ถูกพรีเทรนบนโทเค็น 32T และ 33T ตามลำดับ ซึ่งเพิ่มเป็นสองเท่าของประมาณ 15T โทเค็นที่ใช้สำหรับ V3 รายงานยอมรับว่าพบ "ความท้าทายด้านความไม่เสถียรอย่างมีนัยสำคัญ" ระหว่างการฝึก โดยการสูญเสียมีการพุ่งขึ้นซ้ำแล้วซ้ำเล่าเนื่องจากความผิดปกติในชั้น Mixture-of-Experts MoE; กลไกการเราท์ติ้งเองยิ่งเพิ่มความรุนแรงของความผิดปกติเหล่านี้ และการย้อนกลับอย่างง่ายไม่สามารถแก้ไขปัญหาได้
liveNews.More
03:04

DeepSeek เปิดตัวซีรีส์โมเดลโอเพนซอร์ส V4 ด้วยพารามิเตอร์ 1.6T และใบอนุญาต MIT

ข่าวประตูเมือง (Gate News) วันที่ 24 เมษายน — DeepSeek ได้เปิดตัวซีรีส์โมเดลโอเพนซอร์ส V4 ภายใต้ใบอนุญาต MIT โดยน้ำหนัก (weights) พร้อมใช้งานแล้วบน Hugging Face และ ModelScope ซีรีส์นี้ประกอบด้วยโมเดล (MoE) แบบ mixture-of-experts จำนวน 2 รุ่น ได้แก่ V4-Pro มีพารามิเตอร์รวม 1.6 ล้านล้านตัว และเปิดใช้งาน 49 พันล้านตัวต่อ
liveNews.More
08:52

Tencent เปิดตัวและเปิดซอร์สตัวอย่าง Hunyuan Hy3 พร้อมพารามิเตอร์ 295B

ข่าวประตูเมือง วันที่ 23 เมษายน — Tencent เผยแพร่และเปิดซอร์สตัวอย่าง Hunyuan Hy3 ซึ่งเป็นโมเดลภาษาผสมแบบ mixture-of-experts (MoE) นำเสนอการผสานการคิดแบบเร็วและแบบช้า โมเดลนี้มีพารามิเตอร์ทั้งหมด 295 พันล้าน และมีพารามิเตอร์ที่ใช้งานได้ 21 พันล้าน รองรับความยาวบริบทสูงสุด 256K
liveNews.More
13:41

ห้องปฏิบัติการ Qwen ของ Alibaba เปิดตัวโมเดล Qwen3.6-35B-A3B ด้วยสถาปัตยกรรม Sparse MoE

ห้องปฏิบัติการ Qwen ของ Alibaba ได้เปิดตัว Qwen3.6-35B-A3B ซึ่งเป็นโมเดลภาษาขนาดใหญ่แบบโอเพนซอร์สที่มีสถาปัตยกรรมแบบ sparse mixture-of-experts พร้อมความสามารถในการเขียนโปรแกรมเชิงเอเจนต์ เพื่อใช้ร่วมกับผู้ช่วยการเขียนโค้ดจากบุคคลที่สาม โดยมีพารามิเตอร์ 35 พันล้านตัว และรองรับการทำงานแบบอัตโนมัติ
liveNews.More
01:51

เมituan เปิดซอร์ส LongCat-Next: การเข้าใจภาพ การสร้าง และเสียงแบบรวมศูนย์ด้วยพารามิเตอร์ 3B

ทีม Longcat ของ Meituan ได้เปิดตัว LongCat-Next ซึ่งเป็นโมเดลมัลติโมดัลที่ใช้สถาปัตยกรรม MoE โดยรวมความสามารถห้าประเภท ได้แก่ การประมวลผลข้อความ ความเข้าใจภาพ การสร้างภาพ เสียง และอื่นๆ การออกแบบหลัก DiNA ใช้ token แบบไม่ต่อเนื่องเพื่อจัดการกับงานแบบรวม ด้านภาพ dNaViT ที่ใช้นั้นทำให้การสร้างภาพมีประสิทธิภาพยอดเยี่ยม เมื่อเทียบกับโมเดลที่คล้ายคลึงกัน LongCat-Next แสดงผลLongCat-Next มีประสิทธิภาพดีกว่าในการทดสอบต่างๆ ซึ่งแสดงให้เห็นข้อได้เปรียบของมันในด้านการทำความเข้าใจและการสร้างมัลติโมดัล
liveNews.More
06:36

Cursor เผยแพร่รายงานเทคนิค Composer2: สภาแวดล้อม RL เลียนแบบสถานการณ์ผู้ใช้จริงอย่างสมบูรณ์ คะแนนโมเดลพื้นฐานเพิ่มขึ้น 70%

Cursor ได้เปิดตัวรายงานทางเทคนิค Composer 2 ซึ่งแนะนำแผนการฝึกอบรมแบบสมบูรณ์สำหรับสถาปัตยกรรม Kimi K2.5 MoE รวมถึงการฝึกอบรมสองขั้นตอนและเกณฑ์มาตรฐาน CursorBench ที่พัฒนาเองของบริษัท หลังจากการฝึกอบรม Composer 2 แสดงให้เห็นการปรับปรุงประสิทธิภาพอย่างมีนัยสำคัญและมีความได้เปรียบในแง่ของต้นทุนการอนุมาน เมื่อเทียบกับรุ่นล่าวสุดอื่น ๆ
liveNews.More
06:27

Cursor เผยแพร่รายงานทางเทคนิค Composer 2 มีการปรับปรุงคะแนนแบบจำลองพื้นฐาน 70%

Cursor ได้เปิดตัวรายงานเทคโนโลยี Composer 2 เมื่อวันที่ 25 มีนาคม ซึ่งเปิดเผยแผนการฝึกอบรมของโมเดล Kimi K2.5 โดยใช้สถาปัตยกรรม MoE พร้อมพารามิเตอร์จำนวน 1.04 ล้านล้าน การฝึกอบรมแบ่งเป็นสองขั้นตอน โดยใช้การจำลองสถานการณ์จริงเพื่อการเรียนรู้แบบเสริมแรง ท้ายที่สุดแล้วได้คะแนน 61.3 บน CursorBench benchmark โดยมีการปรับปรุง 70% และมีต้นทุนการอนุมานต่ำกว่า API ของโมเดลขนาดใหญ่อื่นๆ
liveNews.More
02:27

เมituan เปิดตัวแบบจำลองพิสูจน์ทฤษฎีบทที่มีพารามิเตอร์ 560B อัตราความสำเร็จในการอนุมาน 72 ครั้งอยู่ที่ 97.1% ทำลายสถิติใหม่ในวงการโอเพ่นซอร์ส

ทีม LongCat ของ Meituan ได้ปล่อยโอเพนซอร์ส LongCat-Flash-Prover เมื่อวันที่ 21 มีนาคม ซึ่งเป็นโมเดล MoE ที่มีพารามิเตอร์ 5600 พันล้าน มุ่งเน้นไปที่การพิสูจน์ทฤษฎีบททางการ Lean4 โมเดลดังกล่าวแบ่งออกเป็นความสามารถสามประการ ได้แก่ การทำให้เป็นทางการโดยอัตโนมัติ การสร้างสเก็ตช์ และการสร้างการพิสูจน์ที่สมบูรณ์ โดยรวมเครื่องมือการอนุมาน และคอมไพเลอร์ Lean4 เพื่อใช้ในการตรวจสอบแบบเรียลไทม์ การฝึกอบรมใช้ Hybrid-Experts Iteration Framework และอัลกอริทึม HisPO เพื่อป้องกันการโกงระบบรางวัล ผลการทดสอบเบนช์มาร์กแสดงให้เห็นว่าโมเดลดังกล่าวได้ตั้งเรกคอร์ดใหม่สำหรับโมเดลน้ำหนักโอเพนซอร์สในด้านการทำให้เป็นทางการโดยอัตโนมัติและการพิสูจน์ทฤษฎีบท
liveNews.More
06:55

Mistral AI เปิดตัว Leanstral: Agent โค้ด Lean 4 โอเพนซอร์สตัวแรกที่สามารถสร้างหลักฐานรูปแบบอัตโนมัติ

Mistral AI เปิดตัวตัวแทนโค้ดโอเพนซอร์ส Leanstral ซึ่งออกแบบมาโดยเฉพาะสำหรับการตรวจสอบรูปแบบ Lean 4 สามารถสร้างโค้ดและการพิสูจน์ที่สามารถตรวจสอบได้โดยอัตโนมัติ โมเดลนี้ใช้สถาปัตยกรรม Sparse MoE ซึ่งมีประสิทธิภาพดีกว่าโมเดลชั้นนำอื่นๆ และให้บริการดาวน์โหลดฟรีและการเรียก API
liveNews.More