Система учит роботов безопасно: миллион ошибок в голове вместо одной на заводе.
Исследователи представили систему <strong> Dreamer 4 </strong>, которая объединяет модель мира и агента, обучающегося без прямого взаимодействия с окружением. Ранее мировые модели не могли точно предсказывать сложные взаимодействия объектов, но новая архитектура решает эту задачу: она воспроизводит поведение в воображаемых сценариях и затем переносит полученные навыки в реальные условия. Такой подход открывает путь к применению в робототехнике , где работа в режиме онлайн часто невозможна или слишком затратна.
Наиболее заметный результат — система впервые добыла алмазы в Minecraft , обучаясь исключительно на офлайн-данных, без единого шага в самой игре. Агенту пришлось выбрать последовательность из более чем двадцати тысяч действий с клавиатуры и мыши, опираясь только на изображения с экрана. Для сравнения: предыдущие разработки требовали огромных объёмов информации и не справлялись с задачами такого уровня сложности.
Новый подход значительно превзошёл результаты OpenAI VPT — офлайн-агента для Minecraft, использовав при этом в сто раз меньше исходных данных. Он также показал преимущество перед современными методами поведенческого клонирования, которые опираются на дообучение больших мультимодальных моделей.
Авторы работы отмечают, что их модель формирует более качественные представления для агентов, чем, например, Gemma 3. Это подтверждает, что система действительно создаёт глубокое понимание структуры среды и передаёт его в удобной для принятия решений форме.
Ключ к обучению — механизм imagination training. Агент отрабатывает поведение методом обучения с подкреплением внутри собственной модели мира, прогоняя десятки тысяч симуляций. Виртуальная среда охватывает разнообразные сценарии Minecraft — от сбора древесины и добычи камня до долгосрочных заданий с множеством шагов. Модель вознаграждений научилась надёжно определять успешность выполнения заданий даже в воображаемых эпизодах.
Важным преимуществом стала скорость работы. Архитектура обеспечивает интерактивные прогнозы в реальном времени всего на одной видеокарте. В демонстрациях игроки выполняли в модели разные действия — строили стены из досок, добывали ресурсы, использовали лодку. Сравнение с предыдущими системами показало, что генерация стала более достоверной и гибкой.
Возможности проверили и за пределами виртуального мира. Для этого модель обучили на робототехническом датасете . Там, где другие видеомодели испытывали трудности с физикой взаимодействия объектов, новая система сумела воспроизводить контрфактические сценарии и корректно моделировать динамику. Это подтверждает её потенциал для будущего применения в робототехнике.
Dreamer 4 можно рассматривать как важный шаг к созданию более универсальных интеллектуальных агентов. Она сочетает быструю и точную модель мира с эффективной методикой обучения через воображение, открывая дорогу к практическим решениям в самых разных областях.
Исследователи представили систему <strong> Dreamer 4 </strong>, которая объединяет модель мира и агента, обучающегося без прямого взаимодействия с окружением. Ранее мировые модели не могли точно предсказывать сложные взаимодействия объектов, но новая архитектура решает эту задачу: она воспроизводит поведение в воображаемых сценариях и затем переносит полученные навыки в реальные условия. Такой подход открывает путь к применению в робототехнике , где работа в режиме онлайн часто невозможна или слишком затратна.
Наиболее заметный результат — система впервые добыла алмазы в Minecraft , обучаясь исключительно на офлайн-данных, без единого шага в самой игре. Агенту пришлось выбрать последовательность из более чем двадцати тысяч действий с клавиатуры и мыши, опираясь только на изображения с экрана. Для сравнения: предыдущие разработки требовали огромных объёмов информации и не справлялись с задачами такого уровня сложности.
Новый подход значительно превзошёл результаты OpenAI VPT — офлайн-агента для Minecraft, использовав при этом в сто раз меньше исходных данных. Он также показал преимущество перед современными методами поведенческого клонирования, которые опираются на дообучение больших мультимодальных моделей.
Авторы работы отмечают, что их модель формирует более качественные представления для агентов, чем, например, Gemma 3. Это подтверждает, что система действительно создаёт глубокое понимание структуры среды и передаёт его в удобной для принятия решений форме.
Ключ к обучению — механизм imagination training. Агент отрабатывает поведение методом обучения с подкреплением внутри собственной модели мира, прогоняя десятки тысяч симуляций. Виртуальная среда охватывает разнообразные сценарии Minecraft — от сбора древесины и добычи камня до долгосрочных заданий с множеством шагов. Модель вознаграждений научилась надёжно определять успешность выполнения заданий даже в воображаемых эпизодах.
Важным преимуществом стала скорость работы. Архитектура обеспечивает интерактивные прогнозы в реальном времени всего на одной видеокарте. В демонстрациях игроки выполняли в модели разные действия — строили стены из досок, добывали ресурсы, использовали лодку. Сравнение с предыдущими системами показало, что генерация стала более достоверной и гибкой.
Возможности проверили и за пределами виртуального мира. Для этого модель обучили на робототехническом датасете . Там, где другие видеомодели испытывали трудности с физикой взаимодействия объектов, новая система сумела воспроизводить контрфактические сценарии и корректно моделировать динамику. Это подтверждает её потенциал для будущего применения в робототехнике.
Dreamer 4 можно рассматривать как важный шаг к созданию более универсальных интеллектуальных агентов. Она сочетает быструю и точную модель мира с эффективной методикой обучения через воображение, открывая дорогу к практическим решениям в самых разных областях.
- Источник новости
- www.securitylab.ru