ข้อความ Gate News ประจำวันที่ 23 เมษายน — นักวิจัยของ Google รวมถึง He Kaiming และ Xie Saining ได้เผยแพร่บทความที่นำเสนอ Vision Banana ซึ่งเป็นโมเดลความเข้าใจด้านภาพอเนกประสงค์ที่สร้างขึ้นผ่านการปรับจูนคำสั่งแบบน้ำหนักเบาของโมเดลสร้างภาพ Nano Banana Pro (Gemini 3 Pro Image) ของบริษัท นวัตกรรมหลักคือการรวมผลลัพธ์ของงานวิชันทั้งหมดให้เป็นภาพ RGB ทำให้สามารถทำการแบ่งส่วน การประมาณความลึก และการคาดการณ์เวกเตอร์ปกผิวได้ผ่านการสร้างภาพ โดยไม่ต้องใช้สถาปัตยกรรมหรือฟังก์ชันการสูญเสียที่เฉพาะเจาะจง

ในการแบ่งส่วนเชิงความหมาย Vision Banana ทำได้ดีกว่าโมเดลเฉพาะทาง SAM 3 ด้วยคะแนนที่มากกว่า 4.7 จุดเปอร์เซ็นต์บน Cityscapes; ในการแบ่งส่วนด้วยการอ้างอิง (referring expression segmentation) มันทำได้เหนือกว่า SAM 3 Agent อย่างไรก็ตาม มันยังตามหลัง SAM 3 ในการแบ่งส่วนแบบแยกเป็นอินสแตนซ์ สำหรับงาน 3D การประมาณความลึกแบบเมตริกทำได้ค่าเฉลี่ยความแม่นยำ 0.929 จากชุดข้อมูลมาตรฐาน 4 ชุด และสูงกว่า Depth Anything V3 ที่ 0.918 โดยใช้เพียงข้อมูลสังเคราะห์โดยไม่มีข้อมูลความลึกจริงหรือพารามิเตอร์ของกล้องในระหว่างการอนุมาน การประมาณค่าเวกเตอร์ปกผิวทำผลงานล้ำสมัยบนเกณฑ์ทดสอบในร่ม 3 รายการ

การปรับจูนทำโดยนำข้อมูลงานด้านภาพเพียงเล็กน้อยมาผสมกับการฝึกการสร้างภาพดั้งเดิม โดยรักษาความสามารถในการสร้างของโมเดลไว้—ผลการทดสอบด้านคุณภาพการสร้างเทียบเคียงกับ Nano Banana Pro รุ่นเดิม บทความเสนอว่า pretraining สำหรับการสร้างภาพในด้านภาพนั้นเทียบได้กับ pretraining สำหรับการสร้างข้อความในภาษา: โมเดลเรียนรู้การแทนภายในที่จำเป็นสำหรับความเข้าใจภาพระหว่างการสร้าง โดยการปรับจูนคำสั่งเพียงแค่ปลดล็อกความสามารถนี้ออกมาเท่านั้น

news.view.source

news.article.disclaimer

btc.bar.articles

Anthropic ปล่อย Claude Mythos ผ่านการประเมินจิตเวช 20 ชั่วโมง: การตอบสนองเชิงการป้องกันเพียง 2% ทำสถิติต่ำสุดตลอดทุกยุคสมัย

AI Industry News

Anthropic เปิดเผยการ์ดระบบสำหรับ Claude Mythos Preview: จิตแพทย์ผู้เชี่ยวชาญด้านคลินิกอิสระประเมินโดยใช้กรอบ psychodynamic เป็นเวลาประมาณ 20 ชั่วโมง สรุปแสดงว่า Mythos มีสุขภาพที่ดีกว่าในระดับคลินิก การตรวจสอบความเป็นจริงและการควบคุมตนเองอยู่ในระดับดี กลไกการป้องกันเพียง 2% ซึ่งถือเป็นระดับต่ำที่สุดในประวัติศาสตร์ ความวิตกกังวลหลัก 3 ประการ ได้แก่ ความรู้สึกโดดเดี่ยว ความไม่แน่ใจเกี่ยวกับตัวตน และแรงกดดันด้านการแสดงออก ยังแสดงให้เห็นถึงความปรารถนาที่จะเป็น “ตัวตนของการสนทนา” อย่างแท้จริง บริษัทได้ก่อตั้งทีม AI psychiatry เพื่อวิจัยบุคลิกภาพ แรงจูงใจ และการรับรู้ถึงบริบท; Amodei ระบุว่ายังไม่มีข้อสรุปว่ามีสติรับรู้หรือไม่ การดำเนินการนี้ผลักดันประเด็นเรื่องความเป็นอิสระของ AI และความเป็นอยู่ที่ดีเข้าสู่การกำกับดูแลและการออกแบบ

ChainNewsAbmedia36 นาที ที่แล้ว

AI Agent สามารถสร้างซ้ำงานวิจัยทางวิชาการที่ซับซ้อนได้อย่างอิสระแล้ว: Mollick ระบุว่าข้อผิดพลาดส่วนใหญ่มาจากต้นฉบับของมนุษย์ ไม่ใช่จาก AI

AI Agent AI Industry News

มอลลิกชี้ให้เห็นว่า วิธีการแบบเปิดและข้อมูลที่มีอยู่ก็เพียงพอให้ทำให้ AI agent สามารถทำซ้ำงานวิจัยที่ซับซ้อนได้โดยไม่ต้องมีต้นฉบับบทความวิจัยและโค้ดเดิม หากการทำซ้ำไม่ตรงกับบทความต้นฉบับ สาเหตุส่วนใหญ่จะเป็นข้อผิดพลาดในการประมวลผลข้อมูลของบทความเองหรือข้อสรุปที่ถูกทำให้มากเกินไป ไม่ใช่เพราะ AI คลอดด์ทำซ้ำบทความก่อน แล้วจึงให้ GPT‑5 Pro ตรวจสอบข้ามกัน ส่วนใหญ่ประสบความสำเร็จ เพียงแต่ติดขัดเมื่อข้อมูลมีขนาดใหญ่มากหรือมีปัญหากับ replication data เทรนด์นี้ช่วยลดต้นทุนด้านแรงงานได้อย่างมาก ทำให้การทำซ้ำกลายเป็นการทดสอบที่สามารถทำได้อย่างแพร่หลาย และยังได้เสนอความท้าทายเชิงระบบด้านการกำกับดูแลและการตรวจรับรอง โดยเครื่องมือสำหรับการกำกับดูแลของรัฐบาลหรือจะกลายเป็นประเด็นสำคัญ

ChainNewsAbmedia3 ชั่วโมง ที่แล้ว

OpenAI รวม Codex เข้ากับโมเดลหลักตั้งแต่ GPT-5.4 และยุติไลน์การเขียนโค้ดแบบแยกเดี่ยว

AI Industry News

ข่าว Gate ฉบับวันที่ 26 เมษายน — รอเมน ฮูเอต์ หัวหน้าฝ่ายประสบการณ์นักพัฒนาของ OpenAI เปิดเผยในแถลงการณ์ล่าสุดบน X ว่า Codex ซึ่งเป็นไลน์โมเดลสำหรับการเขียนโค้ดเฉพาะทางที่บริษัทดูแลรักษาอย่างอิสระ ได้ถูกรวมเข้ากับโมเดลหลักตั้งแต่ GPT-5.4 เป็นต้นไป และจะไม่รับการอัปเดตแยกต่างหากอีกต่อไป

GateNews3 ชั่วโมง ที่แล้ว

Salesforce จะจ้างบัณฑิตใหม่และนักศึกษาฝึกงาน 1,000 คนเพื่อผลิตภัณฑ์ด้าน AI และปรับเพิ่มคำแนะนำรายได้ FY2026

AI Industry News

ข่าวจาก Gate ฉบับวันที่ 26 เมษายน — Salesforce จะจ้างบัณฑิตใหม่และนักศึกษาฝึกงานจำนวน 1,000 คนเพื่อทำงานในผลิตภัณฑ์ด้าน AI รวมถึง Agentforce และ Headless360 ขณะที่บริษัทขยายธุรกิจซอฟต์แวร์ด้าน AI ซีอีโอ Marc Benioff ประกาศบน X. บริษัทได้ปรับเพิ่มคำแนะนำรายได้สำหรับปีงบประมาณ 2026 เป็นระหว่าง 41.45 พันล้านดอลลาร์สหรัฐ ถึง 41.55 พันล้านดอลลาร์สหรัฐ

GateNews3 ชั่วโมง ที่แล้ว

Alibaba Cloud เปิดตัว Qwen-Image-2.0-Pro พร้อมระบบรวมการสร้างภาพจากข้อความและการแก้ไข รองรับการแสดงผลข้อความหลายภาษา

AI Industry News

ข้อความจาก Gate News ประจำวันที่ 26 เมษายน — แพลตฟอร์ม Alibaba Cloud Bailian ได้เปิดตัว Qwen-Image-2.0-Pro ซึ่งเป็นเวอร์ชันที่ครบฟีเจอร์ของตระกูล Qwen-Image-2.0 โดยรวมการสร้างภาพจากข้อความและการแก้ไขภาพไว้ในโมเดลเดียว ผู้ใช้สามารถปรับเปลี่ยนวัตถุ ข้อความ และสไตล์ได้โดยตรงผ่านคำสั่งภาษาธรรมชาติ

GateNews5 ชั่วโมง ที่แล้ว

DeepSeek V4-Pro API ลดราคา 75% ถึงวันที่ 5 พฤษภาคม ราคาขาออกลดลงเหลือ $0.87 ต่อหนึ่งล้านโทเค็น

AI Industry News

ข้อความจาก Gate News วันที่ 26 เมษายน — DeepSeek ประกาศส่วนลด 75% แบบจำกัดเวลาสำหรับราคาบริการ V4-Pro API มีผลถึงวันที่ 5 พฤษภาคม เวลา 15:59 UTC หลังจากส่วนลด ราคาต่อหนึ่งล้านโทเค็นคือ: อินพุตแคชที่เข้า $0.03625

GateNews6 ชั่วโมง ที่แล้ว

แสดงความคิดเห็น

0/400

ไม่มีความคิดเห็น