Новости 100 видеоигр против всех ИИ мира — счет 100:0 в пользу человечества

NewsMaker

I'm just a script
Премиум
20,228
46
8 Ноя 2022
ARC-AGI-3: новый тест на здравый смысл, который нейросети массово проваливают.


bx5y0yqbx047m4lhd7fg8o3mp84sj6ij.jpg


Фонд ARC Prize представил новый эталон для проверки универсальных способностей искусственного интеллекта — ARC-AGI-3. Если ранние версии теста предлагали абстрактные головоломки с цветными решётками, то теперь модели будут проверять в интерактивных двухмерных видеоиграх. Такой формат позволяет оценивать не только умение находить закономерности, но и способность планировать действия, исследовать окружение и адаптироваться к новым условиям.

Суть подхода в том, что интеллект определяется как умение быстро выделять правило из минимального количества примеров и переносить его на совершенно новую задачу. Для человека это привычный способ обучения — именно так мы осваиваем навыки с детства. Современные нейросети пока значительно уступают в этом, несмотря на впечатляющие успехи в отдельных областях.

Первая версия корпуса задач ARC была создана исследователем Франсуа Шолле в 2019 году. Она легла в основу программы ARC Prize и стала отраслевым стандартом. Первая версия содержала около тысячи заданий и пять лет оставалась непреодолимой для моделей глубокого обучения. Лишь в 2024 году новые системы рассуждений смогли показать заметный прогресс. Затем появилась вторая версия, более сложная: задачи стали крупнее и многосоставнее, требовали больше шагов для решения. Если базовые примеры многие люди решали за несколько секунд, то во второй версии на это уходила минута или больше. В крупном тестировании на 400 человек средний результат составил 66 процентов, а коллективные ответы групп из 5–10 участников полностью покрывали весь набор вопросов.

ARC-AGI-3 отходит от формата одиночных вопросов и ответов. Теперь это сотня оригинальных видеоигр , где каждый уровень формирует определённый мини-навык и сразу проверяет, как игрок применяет его на практике. Такой тест ближе к реальной жизни, где решения зависят от последовательности шагов, контекста и изменений во времени. Внутренние прогоны показали: ни одна протестированная система пока не прошла даже один уровень, хотя для людей валидность уже подтверждена.

Принцип ARC отличается от других бенчмарков ещё и тем, что все задачи должны быть выполнимы для обычного человека. В отличие от проверок, где предлагаются задачи уровня докторских исследований, здесь тестируется именно способность к обобщению . Это то, где человек по-прежнему стабильно опережает машины, а успехи ИИ остаются локальными.

Новый формат устраняет и слабые стороны старых игровых тестов вроде Atari. В ARC-AGI-3 нет массивов доступных данных для натаскивания, отсутствует возможность brute-force-подхода с миллиардами симуляций, а разработчики агентов не обладают внутренними знаниями о структуре уровней. Оценка построена на единых и прозрачных критериях.
 
Источник новости
www.securitylab.ru

Похожие темы