Humain complet, IA jusqu'à 0,37 % : ARC-AGI-3 utilise un « jeu inconnu » pour tester la véritable intelligence de l'agent

BlockBeatNews

Selon la surveillance de 1M AI News, la fondation à but non lucratif ARC Prize, créée par François Chollet, fondateur de Keras, et Mike Knoop, co-fondateur de Zapier, a publié le benchmark ARC-AGI-3. Contrairement aux deux générations précédentes de tâches de raisonnement statique en grille, ARC-AGI-3 est un ensemble d’environnements interactifs en tour par tour, où l’agent évolue dans un monde en grille de 64×64 avec 16 couleurs, sans recevoir d’instructions ni d’objectifs, et doit explorer l’environnement de manière autonome, déduire les règles et les conditions de victoire, construire un modèle du monde et planifier ses actions.

L’évaluation utilise un mécanisme d « efficacité d’action », où moins de mouvements pour terminer un niveau signifie un score plus élevé, permettant de distinguer la véritable capacité de raisonnement de la simple recherche exhaustive. Chaque environnement a été calibré par des tests humains, confirmant qu’un humain peut le passer du premier coup à 100 %. Les scores des modèles d’IA de pointe au moment de la publication sont :

  1. Google Gemini 3.1 Pro Preview : 0,37 %
  2. OpenAI GPT 5.4 (High) : 0,26 %
  3. Anthropic Opus 4.6 (Max) : 0,25 %
  4. xAI Grok-4.20 (Beta) : 0,00 %

Le lancement de cette nouvelle version est en partie motivé par des préoccupations concernant la « contamination » des benchmarks précédents. La publication indique que Gemini 3 a utilisé automatiquement dans sa chaîne de raisonnement la relation de correspondance entre couleurs entières et couleurs (par exemple, « 3 = vert ») de ARC-AGI, bien que cette correspondance n’ait jamais été mentionnée dans les prompts, ce qui suggère fortement que les données d’entraînement du modèle couvraient déjà largement les tâches ARC-AGI. ARC-AGI-3, grâce à ses environnements interactifs et à ses mécanismes de découverte d’objectifs autonomes, cherche à résister à ce genre de raccourcis mémoriels. La compétition ARC Prize 2026 offre un total de plus de 2 millions de dollars en prix.

Voir l'original
Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.
Commentaire
0/400
Aucun commentaire