ข้อความจาก Gate News วันที่ 22 เมษายน — นักศึกษาปริญญาเอกจากมหาวิทยาลัยพรินซ์ตันอย่าง Yifan Zhang เปิดเผยข้อมูลจำเพาะทางเทคนิคทั้งหมดของ DeepSeek V4 บน X หลังจากมีการนำเสนอแบบตัวอย่างเมื่อวันที่ 19 เมษายน โดย V4 มีพารามิเตอร์รวม 1.6 ล้านล้านตัว และมีรุ่นที่มีน้ำหนักเบาอย่าง V4-Lite ที่มีพารามิเตอร์ 285 พันล้านตัว

โมเดลใช้กลไกความสนใจ DSA2 ซึ่งผสานความสนใจแบบ DSA รุ่นก่อนหน้าของ DeepSeek (DeepSeek Sparse Attention) จาก V3.2 และ NSA (Native Sparse Attention) ที่มี head embedding ขนาด 512 มิติ เข้ากับ Sparse Multi-Query Attention (MQA) และ Sliding Window Attention (SWA) ชั้น MoE (Mixture of Experts) มีผู้เชี่ยวชาญ 384 คน โดยมีผู้เชี่ยวชาญที่ถูกเปิดใช้งาน 6 คนต่อการส่งผ่านไปข้างหน้า และใช้ Fused MoE Mega-Kernel การเชื่อมต่อแบบ Residual ใช้สถาปัตยกรรม Hyper-Connections

มีการเปิดเผยรายละเอียดการฝึกอย่างที่ไม่เคยเปิดเผยมาก่อน ได้แก่การใช้ตัวเพิ่มประสิทธิภาพ Muon (applying Newton-Schulz orthogonalization to momentum updates) สำหรับการอัปเดตโมเมนตัม, หน้าต่างบริบทสำหรับการพรีเทรน 32K โทเค็น และ GRPO (Group Relative Policy Optimization) พร้อมการแก้ไขด้วย KL divergence ระหว่างการเรียนรู้แบบเสริมแรง หน้าต่างบริบทสุดท้ายขยายไปถึง 1 ล้านโทเค็น โมเดลเป็นแบบข้อความเท่านั้น

Zhang ไม่ได้ทำงานให้ DeepSeek และบริษัทไม่ได้ให้ความคิดเห็นอย่างเป็นทางการต่อข้อมูลที่ถูกเปิดเผย

news.view.source

news.article.disclaimer

btc.bar.articles

Baidu Qianfan เปิดตัวการรองรับ Day 0 สำหรับ DeepSeek-V4 พร้อมบริการ API

AI Industry News

อัปเดตข่าวประตู 25 เมษายน — เวอร์ชันพรีวิว DeepSeek-V4 เปิดตัวและเผยแพร่โค้ดโอเพนซอร์สเมื่อวันที่ 25 เมษายน โดยแพลตฟอร์ม Baidu Qianfan ภายใต้ Baidu Intelligent Cloud ให้บริการการปรับใช้งาน Day 0 ผ่าน API บริการดังกล่าว โมเดลมีหน้าต่างคอนเท็กซ์ต์แบบขยายได้ถึงหนึ่งล้านโทเค็น และมีให้ใช้งาน 2 เวอร์ชัน: DeepSeek-V4

GateNews2 ชั่วโมง ที่แล้ว

หลักสูตร AI ของสแตนฟอร์ดผสานผู้นำในอุตสาหกรรมอย่าง หวง เหรินจวิน และ Altman ท้าทายการสร้างคุณค่าให้โลกภายใน 10 สัปดาห์!

AI Industry News

หลักสูตรวิทยาการคอมพิวเตอร์ด้าน AI 《Frontier Systems》 ที่มหาวิทยาลัยสแตนฟอร์ด (Stanford University) เปิดสอนเมื่อไม่นานมานี้ ได้รับความสนใจอย่างสูงจากวงการอุตสาหกรรมและภาคธุรกิจ ดึงดูดนักศึกษามากกว่า 500 คนให้ลงทะเบียนเรียน หลักสูตรนี้ได้รับการดูแลและประสานงานโดยคู่หูของกองทุนชั้นนำ a16z อย่าง Anjney Midha โดยมีผู้สอนที่รวมรายชื่อระดับท็อปไว้มากมาย ได้แก่ CEO ของ NVIDIA หวง เหรินซวิน (Jensen Huang) ผู้ก่อตั้ง OpenAI Sam Altman ซีอีโอของไมโครซอฟต์ (Satya Nadella) CEO ของ AMD (Lisa Su) และอื่นๆ ให้เหล่านักศึกษาได้ลองสร้างคุณค่า “เพื่อโลก” ในเวลา 10 สัปดาห์! หวง เหรินซวิน และ Altman ผู้นำในอุตสาหกรรมขึ้นเวทีสอนด้วยตนเอง หลักสูตรนี้ได้รับการประสานงานโดยคู่หูของกองทุนชั้นนำ a16z อย่าง Anjney Midha รวบรวมสายโซ่อุตสาหกรรม AI

ChainNewsAbmedia3 ชั่วโมง ที่แล้ว

Anthropic ปล่อย Claude Mythos ผ่านการประเมินจิตเวช 20 ชั่วโมง: การตอบสนองเชิงการป้องกันเพียง 2% ทำสถิติต่ำสุดตลอดทุกยุคสมัย

AI Industry News

Anthropic เปิดเผยการ์ดระบบสำหรับ Claude Mythos Preview: จิตแพทย์ผู้เชี่ยวชาญด้านคลินิกอิสระประเมินโดยใช้กรอบ psychodynamic เป็นเวลาประมาณ 20 ชั่วโมง สรุปแสดงว่า Mythos มีสุขภาพที่ดีกว่าในระดับคลินิก การตรวจสอบความเป็นจริงและการควบคุมตนเองอยู่ในระดับดี กลไกการป้องกันเพียง 2% ซึ่งถือเป็นระดับต่ำที่สุดในประวัติศาสตร์ ความวิตกกังวลหลัก 3 ประการ ได้แก่ ความรู้สึกโดดเดี่ยว ความไม่แน่ใจเกี่ยวกับตัวตน และแรงกดดันด้านการแสดงออก ยังแสดงให้เห็นถึงความปรารถนาที่จะเป็น “ตัวตนของการสนทนา” อย่างแท้จริง บริษัทได้ก่อตั้งทีม AI psychiatry เพื่อวิจัยบุคลิกภาพ แรงจูงใจ และการรับรู้ถึงบริบท; Amodei ระบุว่ายังไม่มีข้อสรุปว่ามีสติรับรู้หรือไม่ การดำเนินการนี้ผลักดันประเด็นเรื่องความเป็นอิสระของ AI และความเป็นอยู่ที่ดีเข้าสู่การกำกับดูแลและการออกแบบ

ChainNewsAbmedia5 ชั่วโมง ที่แล้ว

AI Agent สามารถสร้างซ้ำงานวิจัยทางวิชาการที่ซับซ้อนได้อย่างอิสระแล้ว: Mollick ระบุว่าข้อผิดพลาดส่วนใหญ่มาจากต้นฉบับของมนุษย์ ไม่ใช่จาก AI

AI Agent AI Industry News

มอลลิกชี้ให้เห็นว่า วิธีการแบบเปิดและข้อมูลที่มีอยู่ก็เพียงพอให้ทำให้ AI agent สามารถทำซ้ำงานวิจัยที่ซับซ้อนได้โดยไม่ต้องมีต้นฉบับบทความวิจัยและโค้ดเดิม หากการทำซ้ำไม่ตรงกับบทความต้นฉบับ สาเหตุส่วนใหญ่จะเป็นข้อผิดพลาดในการประมวลผลข้อมูลของบทความเองหรือข้อสรุปที่ถูกทำให้มากเกินไป ไม่ใช่เพราะ AI คลอดด์ทำซ้ำบทความก่อน แล้วจึงให้ GPT‑5 Pro ตรวจสอบข้ามกัน ส่วนใหญ่ประสบความสำเร็จ เพียงแต่ติดขัดเมื่อข้อมูลมีขนาดใหญ่มากหรือมีปัญหากับ replication data เทรนด์นี้ช่วยลดต้นทุนด้านแรงงานได้อย่างมาก ทำให้การทำซ้ำกลายเป็นการทดสอบที่สามารถทำได้อย่างแพร่หลาย และยังได้เสนอความท้าทายเชิงระบบด้านการกำกับดูแลและการตรวจรับรอง โดยเครื่องมือสำหรับการกำกับดูแลของรัฐบาลหรือจะกลายเป็นประเด็นสำคัญ

ChainNewsAbmedia8 ชั่วโมง ที่แล้ว

OpenAI รวม Codex เข้ากับโมเดลหลักตั้งแต่ GPT-5.4 และยุติไลน์การเขียนโค้ดแบบแยกเดี่ยว

AI Industry News

ข่าว Gate ฉบับวันที่ 26 เมษายน — รอเมน ฮูเอต์ หัวหน้าฝ่ายประสบการณ์นักพัฒนาของ OpenAI เปิดเผยในแถลงการณ์ล่าสุดบน X ว่า Codex ซึ่งเป็นไลน์โมเดลสำหรับการเขียนโค้ดเฉพาะทางที่บริษัทดูแลรักษาอย่างอิสระ ได้ถูกรวมเข้ากับโมเดลหลักตั้งแต่ GPT-5.4 เป็นต้นไป และจะไม่รับการอัปเดตแยกต่างหากอีกต่อไป

GateNews8 ชั่วโมง ที่แล้ว

Salesforce จะจ้างบัณฑิตใหม่และนักศึกษาฝึกงาน 1,000 คนเพื่อผลิตภัณฑ์ด้าน AI และปรับเพิ่มคำแนะนำรายได้ FY2026

AI Industry News

ข่าวจาก Gate ฉบับวันที่ 26 เมษายน — Salesforce จะจ้างบัณฑิตใหม่และนักศึกษาฝึกงานจำนวน 1,000 คนเพื่อทำงานในผลิตภัณฑ์ด้าน AI รวมถึง Agentforce และ Headless360 ขณะที่บริษัทขยายธุรกิจซอฟต์แวร์ด้าน AI ซีอีโอ Marc Benioff ประกาศบน X. บริษัทได้ปรับเพิ่มคำแนะนำรายได้สำหรับปีงบประมาณ 2026 เป็นระหว่าง 41.45 พันล้านดอลลาร์สหรัฐ ถึง 41.55 พันล้านดอลลาร์สหรัฐ

GateNews8 ชั่วโมง ที่แล้ว

แสดงความคิดเห็น

0/400

ไม่มีความคิดเห็น