ARC-AGI-3: новый тест на здравый смысл, который нейросети массово проваливают.
Фонд ARC Prize представил новый эталон для проверки универсальных способностей искусственного интеллекта — ARC-AGI-3. Если ранние версии теста предлагали абстрактные головоломки с цветными решётками, то теперь модели будут проверять в интерактивных двухмерных видеоиграх. Такой формат позволяет оценивать не только умение находить закономерности, но и способность планировать действия, исследовать окружение и адаптироваться к новым условиям.
Суть подхода в том, что интеллект определяется как умение быстро выделять правило из минимального количества примеров и переносить его на совершенно новую задачу. Для человека это привычный способ обучения — именно так мы осваиваем навыки с детства. Современные нейросети пока значительно уступают в этом, несмотря на впечатляющие успехи в отдельных областях.
Первая версия корпуса задач ARC была создана исследователем Франсуа Шолле в 2019 году. Она легла в основу программы ARC Prize и стала отраслевым стандартом. Первая версия содержала около тысячи заданий и пять лет оставалась непреодолимой для моделей глубокого обучения. Лишь в 2024 году новые системы рассуждений смогли показать заметный прогресс. Затем появилась вторая версия, более сложная: задачи стали крупнее и многосоставнее, требовали больше шагов для решения. Если базовые примеры многие люди решали за несколько секунд, то во второй версии на это уходила минута или больше. В крупном тестировании на 400 человек средний результат составил 66 процентов, а коллективные ответы групп из 5–10 участников полностью покрывали весь набор вопросов.
ARC-AGI-3 отходит от формата одиночных вопросов и ответов. Теперь это сотня оригинальных видеоигр , где каждый уровень формирует определённый мини-навык и сразу проверяет, как игрок применяет его на практике. Такой тест ближе к реальной жизни, где решения зависят от последовательности шагов, контекста и изменений во времени. Внутренние прогоны показали: ни одна протестированная система пока не прошла даже один уровень, хотя для людей валидность уже подтверждена.
Принцип ARC отличается от других бенчмарков ещё и тем, что все задачи должны быть выполнимы для обычного человека. В отличие от проверок, где предлагаются задачи уровня докторских исследований, здесь тестируется именно способность к обобщению . Это то, где человек по-прежнему стабильно опережает машины, а успехи ИИ остаются локальными.
Новый формат устраняет и слабые стороны старых игровых тестов вроде Atari. В ARC-AGI-3 нет массивов доступных данных для натаскивания, отсутствует возможность brute-force-подхода с миллиардами симуляций, а разработчики агентов не обладают внутренними знаниями о структуре уровней. Оценка построена на единых и прозрачных критериях.
Фонд ARC Prize представил новый эталон для проверки универсальных способностей искусственного интеллекта — ARC-AGI-3. Если ранние версии теста предлагали абстрактные головоломки с цветными решётками, то теперь модели будут проверять в интерактивных двухмерных видеоиграх. Такой формат позволяет оценивать не только умение находить закономерности, но и способность планировать действия, исследовать окружение и адаптироваться к новым условиям.
Суть подхода в том, что интеллект определяется как умение быстро выделять правило из минимального количества примеров и переносить его на совершенно новую задачу. Для человека это привычный способ обучения — именно так мы осваиваем навыки с детства. Современные нейросети пока значительно уступают в этом, несмотря на впечатляющие успехи в отдельных областях.
Первая версия корпуса задач ARC была создана исследователем Франсуа Шолле в 2019 году. Она легла в основу программы ARC Prize и стала отраслевым стандартом. Первая версия содержала около тысячи заданий и пять лет оставалась непреодолимой для моделей глубокого обучения. Лишь в 2024 году новые системы рассуждений смогли показать заметный прогресс. Затем появилась вторая версия, более сложная: задачи стали крупнее и многосоставнее, требовали больше шагов для решения. Если базовые примеры многие люди решали за несколько секунд, то во второй версии на это уходила минута или больше. В крупном тестировании на 400 человек средний результат составил 66 процентов, а коллективные ответы групп из 5–10 участников полностью покрывали весь набор вопросов.
ARC-AGI-3 отходит от формата одиночных вопросов и ответов. Теперь это сотня оригинальных видеоигр , где каждый уровень формирует определённый мини-навык и сразу проверяет, как игрок применяет его на практике. Такой тест ближе к реальной жизни, где решения зависят от последовательности шагов, контекста и изменений во времени. Внутренние прогоны показали: ни одна протестированная система пока не прошла даже один уровень, хотя для людей валидность уже подтверждена.
Принцип ARC отличается от других бенчмарков ещё и тем, что все задачи должны быть выполнимы для обычного человека. В отличие от проверок, где предлагаются задачи уровня докторских исследований, здесь тестируется именно способность к обобщению . Это то, где человек по-прежнему стабильно опережает машины, а успехи ИИ остаются локальными.
Новый формат устраняет и слабые стороны старых игровых тестов вроде Atari. В ARC-AGI-3 нет массивов доступных данных для натаскивания, отсутствует возможность brute-force-подхода с миллиардами симуляций, а разработчики агентов не обладают внутренними знаниями о структуре уровней. Оценка построена на единых и прозрачных критериях.
- Источник новости
- www.securitylab.ru