มนุษย์ผ่านด่านทั้งหมด AI สูงสุด 0.37%:ARC-AGI-3 ใช้ "เกมที่ไม่รู้จัก" ทดสอบความฉลาดของเอเจนต์

BlockBeatNews

จากการตรวจสอบของ 1M AI News, ผู้ก่อตั้ง Keras François Chollet และ Mike Knoop ผู้ร่วมก่อตั้ง Zapier ได้ก่อตั้งมูลนิธิไม่แสวงหากำไร ARC Prize Foundation ซึ่งได้ปล่อยการทดสอบมาตรฐาน ARC-AGI-3 ต่างจากภารกิจการวิเคราะห์กริดแบบคงที่ในรุ่นก่อน ๆ ARC-AGI-3 เป็นสภาพแวดล้อมแบบโต้ตอบแบบรอบ ซึ่งตัวแทน (Agent) จะดำเนินการในโลกกริดขนาด 64×64 สี 16 สี โดยไม่ได้รับคำสั่งหรือคำแนะนำเป้าหมายใด ๆ ต้องสำรวจสภาพแวดล้อมด้วยตนเอง สรุปกฎเกณฑ์และเงื่อนไขชนะ สร้างโมเดลโลก และวางแผนลำดับการดำเนินการ

การให้คะแนนใช้กลไก “ประสิทธิภาพการกระทำ” ซึ่งจำนวนก้าวที่ใช้ในการผ่านด่านเดียวกันน้อยลงจะได้รับคะแนนสูงขึ้น เพื่อแยกแยะความสามารถในการวิเคราะห์ที่แท้จริงจากการลองผิดลองถูกแบบ brute-force แต่ละสภาพแวดล้อมได้รับการทดสอบโดยมนุษย์เพื่อยืนยันว่า สามารถผ่านได้ในการสัมผัสครั้งแรก คะแนนของโมเดล AI ชั้นนำ ณ เวลาที่ปล่อยข่าวมีดังนี้:

  1. Google Gemini 3.1 Pro Preview: 0.37%
  2. OpenAI GPT 5.4 (High): 0.26%
  3. Anthropic Opus 4.6 (Max): 0.25%
  4. xAI Grok-4.20 (Beta): 0.00%

เวอร์ชันใหม่เกิดขึ้นบางส่วนจากความกังวลว่ามาตรฐานก่อนหน้านี้ถูก “ปนเปื้อน” รายงานระบุว่า Gemini 3 ในกระบวนการวิเคราะห์เชิงเหตุผลได้ใช้ความสัมพันธ์ระหว่างสีและจำนวนเต็มของ ARC-AGI (เช่น “3 = สีเขียว”) โดยอัตโนมัติ แม้ว่าจะไม่มีการกล่าวถึงความสัมพันธ์นี้ในคำแนะนำ ซึ่งเป็นการบ่งชี้อย่างชัดเจนว่าข้อมูลการฝึกโมเดลได้ครอบคลุมภารกิจ ARC-AGI อย่างเต็มที่ ARC-AGI-3 จัดการกับปัญหานี้โดยใช้สภาพแวดล้อมแบบโต้ตอบและกลไกการค้นหาเป้าหมายด้วยตนเอง เพื่อป้องกันการใช้ความจำเป็นทางลัด มูลนิธิ ARC Prize 2026 มีเงินรางวัลรวมกว่า 2 ล้านดอลลาร์สหรัฐ

ดูต้นฉบับ
news.article.disclaimer
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น