Человеческий полный проход, максимум AI 0,37%: ARC-AGI-3 использует «неизвестную игру» для тестирования истинного интеллекта агента

BlockBeatNews

По данным мониторинга 1M AI News, основатель Keras Франсуа Шолле и соучредитель Zapier Майк Кноп создали некоммерческую организацию ARC Prize Foundation, которая выпустила бенчмарк ARC-AGI-3. В отличие от предыдущих двух поколений статических задач на логическое рассуждение, ARC-AGI-3 представляет собой набор интерактивных пошаговых сред, в которых агент действует в 64×64, 16-цветном сетевом мире, не получая никаких команд или подсказок целей, и должен самостоятельно исследовать окружение, делать выводы о правилах и условиях победы, строить модель мира и планировать последовательность действий.

Оценка осуществляется по механизму «эффективности действий»: чем меньше шагов требуется для прохождения одного и того же уровня, тем выше балл, что позволяет отличить истинные способности к рассуждению от простого перебора вариантов. Каждая среда прошла калибровочные тесты с участием человека, подтверждающие, что её можно пройти с первого раза 100% человеком. На момент публикации передовые модели ИИ достигли следующих результатов:

  1. Google Gemini 3.1 Pro Preview: 0,37%
  2. OpenAI GPT 5.4 (High): 0,26%
  3. Anthropic Opus 4.6 (Max): 0,25%
  4. xAI Grok-4.20 (Beta): 0,00%

Запуск новой версии частично обусловлен опасениями, что предыдущие бенчмарки были «загрязнены». В статье отмечается, что Gemini 3 автоматически использовал в цепочке рассуждений сопоставление целых чисел и цветов ARC-AGI (например, «3 = зеленый»), хотя в подсказках это никогда явно не указывалось, что сильно намекает на то, что обучающие данные модели уже полностью покрывают задачи ARC-AGI. ARC-AGI-3 использует интерактивную среду и механизмы самостоятельного обнаружения целей, чтобы противостоять таким «механизмам памяти». Общий призовой фонд конкурса ARC Prize 2026 превышает 2 миллиона долларов.

Посмотреть Оригинал
Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.
комментарий
0/400
Нет комментариев