Conquista total da humanidade, AI com máximo de 0,37%: ARC-AGI-3 testa a verdadeira inteligência do Agente com "jogo desconhecido"

BlockBeatNews

De acordo com a monitorização do 1M AI News, a fundação sem fins lucrativos ARC Prize, fundada por François Chollet, criador do Keras, e Mike Knoop, cofundador da Zapier, lançou o benchmark ARC-AGI-3. Ao contrário das tarefas de raciocínio em grade estática das duas gerações anteriores, o ARC-AGI-3 é um conjunto de ambientes interativos por turnos, onde o Agente atua num mundo de grade de 64×64 com 16 cores, sem receber instruções ou pistas de objetivo, devendo explorar o ambiente de forma autónoma, inferir regras e condições de vitória, construir modelos do mundo e planear sequências de ações.

A pontuação usa o mecanismo de “eficiência de ações”, onde menos passos para completar o mesmo nível resultam numa pontuação mais alta, distinguindo verdadeira capacidade de raciocínio de uma busca exaustiva. Cada ambiente foi calibrado por humanos, confirmando que pode ser completado por humanos na primeira tentativa. As pontuações dos modelos de IA mais avançados até ao momento do lançamento são:

  1. Google Gemini 3.1 Pro Preview: 0,37%
  2. OpenAI GPT 5.4 (High): 0,26%
  3. Anthropic Opus 4.6 (Max): 0,25%
  4. xAI Grok-4.20 (Beta): 0,00%

A introdução de uma nova versão deve-se parcialmente a preocupações de que o benchmark anterior foi “contaminado”. O artigo aponta que o Gemini 3 utilizou automaticamente, na cadeia de raciocínio, a relação de mapeamento de cores inteiras do ARC-AGI (por exemplo, “3 = verde”), embora essa relação nunca tenha sido mencionada na prompt, sugerindo fortemente que os dados de treino do modelo cobriam suficientemente as tarefas do ARC-AGI. O ARC-AGI-3 tenta resistir a essas atalhos de memória através de ambientes interativos e mecanismos de descoberta de objetivos autónomos. A competição ARC Prize 2026 oferece um prémio total superior a 2 milhões de dólares.

Ver original
Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.
Comentar
0/400
Nenhum comentário