GPT-5.5 กลับมาล้ำหน้าในการเขียนโค้ด แต่ OpenAI เปลี่ยนเกณฑ์มาตรฐานหลังแพ้ Opus 4.7

ข่าวประจำเกต 27 เมษายน — SemiAnalysis บริษัทวิเคราะห์เซมิคอนดักเตอร์และ AI ได้เผยแพร่มาตรฐานเปรียบเทียบเชิงเปรียบเทียบของผู้ช่วยการเขียนโค้ด รวมถึง GPT-5.5, Claude Opus 4.7 และ DeepSeek V4 ผลค้นหาที่สำคัญ: GPT-5.5 แสดงถึงการกลับสู่ขอบล้ำในการพัฒนาโมเดลการเขียนโค้ดของ OpenAI เป็นครั้งแรกในรอบหกเดือน โดยวิศวกรของ SemiAnalysis ตอนนี้สลับไปมาระหว่าง Codex และ Claude Code หลังจากก่อนหน้านี้พึ่งพา Claude เกือบทั้งหมด GPT-5.5 อ้างอิงจากแนวทางการพรีเทรนแบบใหม่ที่มีชื่อรหัสว่า “Spud” และถือเป็นการขยายขนาดการพรีเทรนครั้งแรกของ OpenAI นับตั้งแต่ GPT-4.5.

ในการทดสอบเชิงปฏิบัติที่ชัดเจน ได้แยกบทบาทออกมาอย่างชัดเจน Claude จัดการการวางแผนโครงการใหม่และการตั้งค่าเริ่มต้น ในขณะที่ Codex โดดเด่นสำหรับการแก้บั๊กที่ต้องใช้การให้เหตุผลหนักๆ Codex แสดงความเข้าใจโครงสร้างข้อมูลและการให้เหตุผลเชิงตรรกะที่แข็งแกร่งกว่า แต่กลับมีปัญหาในการคาดเดาความตั้งใจของผู้ใช้ที่ไม่ชัดเจน ในงานที่คล้ายกันบนแดชบอร์ดเดียว Claude คัดลอกเค้าโครงหน้าจากตัวอย่างได้โดยอัตโนมัติแต่ได้สร้างข้อมูลจำนวนมากขึ้นมา ในขณะที่ Codex ข้ามเรื่องเค้าโครงแต่ให้ข้อมูลที่แม่นยำกว่ามาก

การวิเคราะห์เผยรายละเอียดเกี่ยวกับการปรับแต่งเกณฑ์มาตรฐาน: โพสต์บล็อกของ OpenAI ในเดือนกุมภาพันธ์ได้เรียกร้องให้วงการนำ SWE-bench Pro มาเป็นมาตรฐานใหม่สำหรับการประเมินเกณฑ์การเขียนโค้ด อย่างไรก็ตาม การประกาศของ GPT-5.5 ได้เปลี่ยนไปใช้เกณฑ์มาตรฐานใหม่ที่ชื่อ “Expert-SWE” เหตุผล—ซ่อนอยู่ในส่วนปลีกย่อย—คือ GPT-5.5 ถูก Opus 4.7 แซงบน SWE-bench Pro และทำผลงานได้ต่ำกว่ามากเมื่อเทียบกับ Mythos ที่ยังไม่เผยแพร่ของ Anthropic (77.8%).

สำหรับ Opus 4.7 Anthropic เผยแพร่การวิเคราะห์สรุปหลังเหตุการณ์ (postmortem) หนึ่งสัปดาห์หลังการเปิดตัว โดยยอมรับบั๊กสามจุดใน Claude Code ที่ยังคงอยู่ต่อเนื่องเป็นเวลาหลายสัปดาห์ตั้งแต่เดือนมีนาคมถึงเมษายน ส่งผลกระทบต่อผู้ใช้งานเกือบทั้งหมด วิศวกรหลายคนเคยรายงานว่าประสิทธิภาพลดลงในเวอร์ชัน 4.6 มาก่อน แต่ถูกมองว่าเป็นข้อสังเกตเชิงอัตวิสัย นอกจากนี้ โทเคไนเซอร์ใหม่ของ Opus 4.7 เพิ่มการใช้งานโทเคนได้สูงถึง 35% ซึ่ง Anthropic ยอมรับอย่างตรงไปตรงมา—ซึ่งเท่ากับเป็นการขึ้นราคาที่ซ่อนอยู่โดยปริยาย

DeepSeek V4 ถูกประเมินว่า “ตามทันความก้าวหน้าในระดับแนวหน้าแต่ไม่ได้เป็นผู้นำ” โดยวางตำแหน่งตัวเองเป็นทางเลือกที่มีต้นทุนต่ำที่สุดในบรรดาโมเดลที่ปิดซอร์ส การวิเคราะห์ยังระบุว่า “Claude ยังคงทำผลงานได้ดีกว่า DeepSeek V4 Pro ในงานเขียนภาษาจีนที่มีความยากสูง” โดยแสดงความคิดเห็นว่า “Claude ชนะโมเดลภาษาจีนในภาษาเดียวกับที่มันใช้”

บทความนำเสนอแนวคิดสำคัญว่า ควรประเมินราคาของโมเดลด้วย “ต้นทุนต่อหนึ่งงาน” แทนที่จะเป็น “ต้นทุนต่อหนึ่งโทเคน” ราคาของ GPT-5.5 เป็นสองเท่าของ GPT-5.4 (input $5, output $30 per million tokens) แต่ทำงานเดียวกันได้โดยใช้โทเคนน้อยกว่า ดังนั้นต้นทุนที่แท้จริงจึงไม่ได้จำเป็นต้องสูงขึ้น ข้อมูลเบื้องต้นจาก SemiAnalysis แสดงว่าอัตราส่วนอินพุตต่อเอาต์พุตของ Codex อยู่ที่ 80:1 ต่ำกว่าของ Claude Code ที่ 100:1.

news.article.disclaimer

btc.bar.articles

DeepSeek V4 Pro บน Ollama Cloud: เชื่อมต่อ Claude Code แบบกดครั้งเดียว

ตามทวีตของ Ollama DeepSeek V4 Pro เปิดตัวเมื่อ 4/24 ได้ถูกเพิ่มเข้าไปในไดเรกทอรีของ Ollama ในโหมดคลาวด์ และสามารถเรียกใช้เครื่องมือต่างๆ เช่น Claude Code, Hermes, OpenClaw, OpenCode, Codex ฯลฯ ได้ด้วยคำสั่งเดียวเท่านั้น V4 Pro1.6T พารามิเตอร์, context 1M, Mixture-of-Experts; การอนุมานบนคลาวด์ไม่ดาวน์โหลดน้ำหนัก (weights) ลงในเครื่อง หากต้องการใช้งานแบบโลคอลให้ดาวน์โหลด weights ด้วยตนเอง และรันด้วย INT4/GGUF และ GPU หลายการ์ด การทดสอบความเร็วในช่วงแรกได้รับผลกระทบจากภาระงานของคลาวด์ โดยค่าปกติอยู่ที่ประมาณ 30 tok/s และค่าสูงสุด 1.1tok/s; แนะนำให้ใช้ต้นแบบบนคลาวด์ เมื่อเข้าสู่การผลิตจำนวนมากแล้วค่อยทำการอนุมานด้วยตนเองหรือใช้ API เชิงพาณิชย์

ChainNewsAbmedia40 นาที ที่แล้ว

DeepSeek ลดราคาของ V4-Pro ลง 75%, ตัดค่าใช้จ่ายแคชของ API เหลือเพียงหนึ่งในสิบ

ประกาศ Gate News วันที่ 27 เมษายน — DeepSeek ประกาศส่วนลด 75% สำหรับโมเดลใหม่ V4-Pro ของตนสำหรับนักพัฒนา และลดราคาการเข้าถึงแคชอินพุตทั่วทั้งไลน์อัป API เหลือเพียงหนึ่งในสิบของระดับเดิม โมเดล V4 ซึ่งเปิดตัวเมื่อวันที่ 25 เมษายนในเวอร์ชัน Pro และ Flash ได้รับการปรับให้เหมาะสมสำหรับโปรเซสเซอร์ Ascend ของ Huawei

GateNews43 นาที ที่แล้ว

Coachella หันไปใช้ AI ของ DeepMind ของ Google เพื่อจินตนาการคอนเสิร์ตใหม่ให้ก้าวไปไกลกว่าบนเวที

Coachella ได้ร่วมมือกับ Google DeepMind เพื่อทดสอบเครื่องมือ AI ชุดใหม่ที่เปลี่ยนวิธีการสร้างและประสบการณ์ที่ผู้คนได้รับจากการแสดงดนตรีสด สรุป Coachella ได้ทดสอบเครื่องมือ AI กับ Google DeepMind เพื่อเปลี่ยนการแสดงสดให้กลายเป็นสภาพแวดล้อมดิจิทัลแบบโต้ตอบ ได้มีการสร้างต้นแบบสามชิ้นแล้ว,

Cryptonews49 นาที ที่แล้ว

กัวหมิงฉี: OpenAI จะทำ AI Agent บนมือถือ โดย MediaTek, Qualcomm และ Luxshare Precision เป็นห่วงโซ่อุปทานที่สำคัญ

กู่หมิงเฉิงกล่าวอ้างว่า OpenAI กำลังร่วมมือกับ MediaTek, Qualcomm และ Luxshare Precision เพื่อพัฒนา AI Agent มือถือ โดยคาดว่าจะเริ่มการผลิตจำนวนมากในปี 2028 มือถือเครื่องใหม่จะยึดหลักการทำภารกิจให้สำเร็จเป็นแกน โดย AI เอเจนต์จะเข้าใจและดำเนินการตามความต้องการ ผสานพลังการประมวลผลทั้งฝั่งคลาวด์และฝั่งอุปกรณ์ โดยเน้นที่การรับรู้จากเซนเซอร์และความเข้าใจบริบท รายการสเปกและรายชื่อซัพพลายเชนคาดว่าจะได้รับการสรุปในช่วงปี 2026–2027 หากแผนดังกล่าวเป็นรูปเป็นร่าง อาจสร้างรอบการเปลี่ยนเครื่องใหม่สำหรับตลาดระดับสูง และ Luxshare มีแนวโน้มที่จะเป็นผู้ได้รับประโยชน์หลัก

ChainNewsAbmedia59 นาที ที่แล้ว

IEA: การลงทุนโครงสร้างพื้นฐานด้าน AI ได้มากกว่าการลงทุนการผลิตน้ำมันและก๊าซแล้ว และในปี 2026 คาดว่าจะเพิ่มขึ้นอีก 75%

ตามรายงานการวิเคราะห์และข้อมูลตลาดที่เผยแพร่โดยสำนักงานพลังงานระหว่างประเทศ (IEA) เมื่อวันที่ 26 เมษายน การลงทุนรวมด้านงบลงทุน (capital expenditure) ของบริษัทเทคโนโลยีชั้นนำ 5 อันดับแรกในปี 2025 มีมูลค่ามากกว่า 400 พันล้านดอลลาร์สหรัฐ โดยมุ่งเน้นหลักไปที่การลงทุนโครงสร้างพื้นฐานด้าน AI ซึ่งมีขนาดใหญ่เกินกว่าขนาดการลงทุนประจำปีของการผลิตน้ำมันและก๊าซทั่วโลก IEA ประเมินว่า ในปี 2026 งบลงทุนที่เกี่ยวข้องอาจเพิ่มขึ้นอีก 75%

MarketWhisper1 ชั่วโมง ที่แล้ว

วุฒิสมาชิก เบอร์นี แซนเดอร์ส ออกคำเตือนเกี่ยวกับภัยคุกคามเชิงดำรงอยู่ของ AI

แซนเดอร์สเน้นย้ำว่าแม้แต่นักวิทยาศาสตร์ด้าน AI ส่วนใหญ่จะยอมรับถึงความเป็นไปได้ที่ AI จะหลุดพ้นจากการควบคุมและกลายเป็นอันตรายต่อการดำรงอยู่ของเรา แต่ก็ยังไม่มีมาตรการสำคัญใดๆ ที่ถูกนำมาใช้เพื่อป้องกันมัน “เราต้องทำให้แน่ใจว่า AI เป็นประโยชน์ต่อมนุษยชาติ ไม่ใช่ทำร้ายเรา” เขากล่าว ประเด็นสำคัญที่ควรทราบ: เบอร์นี แซนเดอร์ส

Coinpedia1 ชั่วโมง ที่แล้ว
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น