Theo theo dõi của 1M AI News, Quỹ ARC Prize do nhà sáng lập Keras François Chollet và đồng sáng lập Zapier Mike Knoop thành lập đã công bố bài kiểm tra chuẩn ARC-AGI-3. Khác với các nhiệm vụ suy luận lưới tĩnh thế hệ trước, ARC-AGI-3 là một tập hợp các môi trường tương tác theo lượt, trong đó Agent hoạt động trong thế giới lưới 64×64 với 16 màu, không nhận bất kỳ chỉ thị hay gợi ý mục tiêu nào, buộc phải tự khám phá môi trường, suy luận quy tắc và điều kiện chiến thắng, xây dựng mô hình thế giới và lập kế hoạch hành động.
Điểm số dựa trên cơ chế “hiệu quả hành động”, số bước cần để hoàn thành cùng một cấp độ càng ít thì điểm càng cao, nhằm phân biệt khả năng suy luận thực sự và phương pháp brute-force. Mỗi môi trường đều đã được kiểm tra chuẩn xác bởi con người, xác nhận có thể vượt qua lần đầu tiên tiếp xúc. Điểm số của các mô hình AI hàng đầu tại thời điểm phát hành là:
Phiên bản mới phần nào ra đời từ lo ngại về việc các chuẩn trước đó đã bị “ô nhiễm”. Bài báo chỉ ra rằng, Gemini 3 trong chuỗi suy luận đã tự động sử dụng mối quan hệ ánh xạ màu sắc số của ARC-AGI (ví dụ “3 = màu xanh lá”), mặc dù trong phần gợi ý chưa từng đề cập đến mối quan hệ này, điều này ám chỉ dữ liệu huấn luyện của mô hình đã bao phủ đầy đủ các nhiệm vụ ARC-AGI. ARC-AGI-3 sử dụng môi trường tương tác và cơ chế phát hiện mục tiêu tự chủ để chống lại các phương pháp ghi nhớ shortcut như vậy. Cuộc thi ARC Prize 2026 có tổng giải thưởng hơn 2 triệu USD.