Gemini Robotics теперь планируют как мы: с ошибками, адаптацией и самокоррекцией.
Google DeepMind выложила 25 сентября ролик, в котором показано, как её гуманоидные платформы справляются с многошаговыми бытовыми задачами, опираясь на мультимодальные рассуждения. В серии демонстраций машины уверенно выполняли цепочки действий, включая сортировку предметов по правилам, заданным заранее.
Интеллект этих систем основан на семействе Gemini Robotics 1.5. В связке работают две составляющие: базовая модель переводит зрительные сигналы и текстовые подсказки в конкретные движения, а модификация Gemini Robotics-ER 1.5 строит пошаговые планы и рассуждает о текущей ситуации, выбирая последовательность шагов.
Так называемый банановый тест хорошо показывает прогресс. Раньше от робота требовалось только взять банан и положить его в миску — одна команда, один результат. Теперь установка отсортировала три разных фрукта по цвету и разложила их по тарелкам. Эксперимент демонстрировал старший исследователь Google DeepMind Цзе Тан; двуручная система на базе манипуляторов Franka без сбоев прошла всю последовательность.
Отдельно проверили способности гуманоидной платформы Apollo от Apptronik на задаче с бельём. Машина раскладывала вещи по оттенкам в две ёмкости — для белого и для чёрного. После первой удачной попытки инженеры поменяли контейнеры местами, чтобы понять, заметит ли аппарат перестановку в процессе и скорректирует ли действия. Apollo распознал новое расположение и завершил сортировку корректно.
Gemini Robotics 1.5 поддерживает воплощённое обучение: робот исследует окружение корпусом, сенсорами и камерами, а затем действует с опорой на собственные наблюдения. В большинстве эпизодов работал ALOHA 2, но те же сценарии под силу и Apollo, и двуручной установке Franka. Появились и агентные функции . Например, системе можно поручить раздельный сбор: она найдёт в сети местные правила, визуально оценит каждый предмет, отнесёт его к компосту, переработке или отходам и выполнит всю цепочку — от решения до утилизации в нужный контейнер.
Такой уровень последовательности обеспечивает совместная работа двух компонентов: один отвечает за путь от восприятия к движению, второй — за планирование и логику. Благодаря этой архитектуре выполнение реальных задач становится понятнее и надёжнее.
Безопасности уделили отдельное внимание. Роботов учат заранее оценивать риски, соблюдать человеческие ограничения и избегать опасных ситуаций. При поддержке профильных команд и обновлённого теста ASIMOV версия Gemini Robotics-ER 1.5 вышла на лидирующие позиции в испытаниях, что должно упростить аккуратное внедрение подобных систем за пределами лаборатории.
Google DeepMind выложила 25 сентября ролик, в котором показано, как её гуманоидные платформы справляются с многошаговыми бытовыми задачами, опираясь на мультимодальные рассуждения. В серии демонстраций машины уверенно выполняли цепочки действий, включая сортировку предметов по правилам, заданным заранее.
Интеллект этих систем основан на семействе Gemini Robotics 1.5. В связке работают две составляющие: базовая модель переводит зрительные сигналы и текстовые подсказки в конкретные движения, а модификация Gemini Robotics-ER 1.5 строит пошаговые планы и рассуждает о текущей ситуации, выбирая последовательность шагов.
Так называемый банановый тест хорошо показывает прогресс. Раньше от робота требовалось только взять банан и положить его в миску — одна команда, один результат. Теперь установка отсортировала три разных фрукта по цвету и разложила их по тарелкам. Эксперимент демонстрировал старший исследователь Google DeepMind Цзе Тан; двуручная система на базе манипуляторов Franka без сбоев прошла всю последовательность.
Отдельно проверили способности гуманоидной платформы Apollo от Apptronik на задаче с бельём. Машина раскладывала вещи по оттенкам в две ёмкости — для белого и для чёрного. После первой удачной попытки инженеры поменяли контейнеры местами, чтобы понять, заметит ли аппарат перестановку в процессе и скорректирует ли действия. Apollo распознал новое расположение и завершил сортировку корректно.
Gemini Robotics 1.5 поддерживает воплощённое обучение: робот исследует окружение корпусом, сенсорами и камерами, а затем действует с опорой на собственные наблюдения. В большинстве эпизодов работал ALOHA 2, но те же сценарии под силу и Apollo, и двуручной установке Franka. Появились и агентные функции . Например, системе можно поручить раздельный сбор: она найдёт в сети местные правила, визуально оценит каждый предмет, отнесёт его к компосту, переработке или отходам и выполнит всю цепочку — от решения до утилизации в нужный контейнер.
Такой уровень последовательности обеспечивает совместная работа двух компонентов: один отвечает за путь от восприятия к движению, второй — за планирование и логику. Благодаря этой архитектуре выполнение реальных задач становится понятнее и надёжнее.
Безопасности уделили отдельное внимание. Роботов учат заранее оценивать риски, соблюдать человеческие ограничения и избегать опасных ситуаций. При поддержке профильных команд и обновлённого теста ASIMOV версия Gemini Robotics-ER 1.5 вышла на лидирующие позиции в испытаниях, что должно упростить аккуратное внедрение подобных систем за пределами лаборатории.
- Источник новости
- www.securitylab.ru