Новости Сортировка бананов — или начало новой эры? Роботы освоили мышление высшего порядка благодаря DeepMind

NewsMaker

I'm just a script
Премиум
20,972
46
8 Ноя 2022
Gemini Robotics теперь планируют как мы: с ошибками, адаптацией и самокоррекцией.


qyggylzd74t12jkeayfag1qdkd0hptax.jpg

Google DeepMind выложила 25 сентября ролик, в котором показано, как её гуманоидные платформы справляются с многошаговыми бытовыми задачами, опираясь на мультимодальные рассуждения. В серии демонстраций машины уверенно выполняли цепочки действий, включая сортировку предметов по правилам, заданным заранее.

Интеллект этих систем основан на семействе Gemini Robotics 1.5. В связке работают две составляющие: базовая модель переводит зрительные сигналы и текстовые подсказки в конкретные движения, а модификация Gemini Robotics-ER 1.5 строит пошаговые планы и рассуждает о текущей ситуации, выбирая последовательность шагов.

Так называемый банановый тест хорошо показывает прогресс. Раньше от робота требовалось только взять банан и положить его в миску — одна команда, один результат. Теперь установка отсортировала три разных фрукта по цвету и разложила их по тарелкам. Эксперимент демонстрировал старший исследователь Google DeepMind Цзе Тан; двуручная система на базе манипуляторов Franka без сбоев прошла всю последовательность.

Отдельно проверили способности гуманоидной платформы Apollo от Apptronik на задаче с бельём. Машина раскладывала вещи по оттенкам в две ёмкости — для белого и для чёрного. После первой удачной попытки инженеры поменяли контейнеры местами, чтобы понять, заметит ли аппарат перестановку в процессе и скорректирует ли действия. Apollo распознал новое расположение и завершил сортировку корректно.

Gemini Robotics 1.5 поддерживает воплощённое обучение: робот исследует окружение корпусом, сенсорами и камерами, а затем действует с опорой на собственные наблюдения. В большинстве эпизодов работал ALOHA 2, но те же сценарии под силу и Apollo, и двуручной установке Franka. Появились и агентные функции . Например, системе можно поручить раздельный сбор: она найдёт в сети местные правила, визуально оценит каждый предмет, отнесёт его к компосту, переработке или отходам и выполнит всю цепочку — от решения до утилизации в нужный контейнер.

Такой уровень последовательности обеспечивает совместная работа двух компонентов: один отвечает за путь от восприятия к движению, второй — за планирование и логику. Благодаря этой архитектуре выполнение реальных задач становится понятнее и надёжнее.

Безопасности уделили отдельное внимание. Роботов учат заранее оценивать риски, соблюдать человеческие ограничения и избегать опасных ситуаций. При поддержке профильных команд и обновлённого теста ASIMOV версия Gemini Robotics-ER 1.5 вышла на лидирующие позиции в испытаниях, что должно упростить аккуратное внедрение подобных систем за пределами лаборатории.
 
Источник новости
www.securitylab.ru

Похожие темы