Профессиональные инженеры проиграли конкуренцию простым текстовым командам.
Роботы долго оставались областью для инженеров с дорогим оборудованием и большим запасом терпения. Однако новый эксперимент журналиста Уилла Найта показывает, что порог входа быстро снижается: современные ИИ-инструменты уже помогают настраивать манипуляторы, писать управляющий код и обучать модели для работы с предметами.
Найт подключил ИИ-агента OpenClaw к реальной роботизированной руке LeRobot 101. Манипулятор входит в открытый проект HuggingFace и рассчитан на сравнительно доступные эксперименты с робототехникой. Комплект состоит из двух частей: управляющей руки, которую двигает человек, и ведомой руки с камерой, повторяющей движения. Через такой режим можно собирать данные и учить модель выполнять действия по изображению с камеры.
Перед подключением OpenClaw настройка заняла у Найта несколько часов и едва не закончилась поломкой моторов из-за неверных параметров. Затем OpenClaw вместе с Codex помогли написать простую программу , которая заставила захват закрываться при обнаружении красного мяча. Codex настроил соединение с роботом через терминал, после чего система откалибровала суставы и подготовила Python-скрипт для распознавания объекта и захвата.
Результат оказался не идеальным. Найт отдельно указывает, что ИИ-кодинг может давать сбои, особенно при работе с разным оборудованием. Но сам подход оказался достаточно сильным, чтобы перейти от простого движения манипулятора к обучению модели, способной брать и переносить предметы.
По словам робототехника Кена Голдберга из Калифорнийского университета в Беркли, написание кода при помощи ИИ может связать классическую инженерию, надёжную, но плохо приспосабливающуюся к новым задачам, с современными моделями, которые лучше обобщают опыт, но пока уступают по стабильности.
Подход, известный как «код как политика», описали ещё в научной работе 2022 года. С тех пор возможности моделей в программировании заметно выросли, а метод начали проверять в лабораториях. Команда Голдберга вместе с Nvidia, Carnegie Mellon University и Stanford создала тест CaP-X для оценки того, как кодовые модели справляются с роботами. По данным авторов, сильнейший результат в таких задачах показала Gemini, что может быть связано с упором Google DeepMind на мультимодальность и работу с физическим миром.
Исследовательская группа также разработала среду CaP-Gym, где ИИ-агенты управляют симулированными и реальными роботами, а также фреймворк CaP-Agent0. В ряде задач такой подход помог кодовым моделям обойти системы, специально обученные напрямую управлять движениями робота.
Спенсер Хуан из Nvidia, сын Дженсена Хуана, участвует в проектах и хакатонах, где инженеры пробуют управлять роботами через ИИ-кодирование. Цель таких работ проста: сделать робототехнику доступнее не только для узких специалистов, но и для людей, которые могут описать задачу текстом, голосом или показать нужное действие.
Таким образом, чем доступнее становятся инструменты для управления роботами, тем быстрее робототехника выходит из лабораторий и превращается в область, где решающим навыком становится не работа с железом, а умение точно описать задачу машине.
Роботы долго оставались областью для инженеров с дорогим оборудованием и большим запасом терпения. Однако новый эксперимент журналиста Уилла Найта показывает, что порог входа быстро снижается: современные ИИ-инструменты уже помогают настраивать манипуляторы, писать управляющий код и обучать модели для работы с предметами.
Найт подключил ИИ-агента OpenClaw к реальной роботизированной руке LeRobot 101. Манипулятор входит в открытый проект HuggingFace и рассчитан на сравнительно доступные эксперименты с робототехникой. Комплект состоит из двух частей: управляющей руки, которую двигает человек, и ведомой руки с камерой, повторяющей движения. Через такой режим можно собирать данные и учить модель выполнять действия по изображению с камеры.
Перед подключением OpenClaw настройка заняла у Найта несколько часов и едва не закончилась поломкой моторов из-за неверных параметров. Затем OpenClaw вместе с Codex помогли написать простую программу , которая заставила захват закрываться при обнаружении красного мяча. Codex настроил соединение с роботом через терминал, после чего система откалибровала суставы и подготовила Python-скрипт для распознавания объекта и захвата.
Результат оказался не идеальным. Найт отдельно указывает, что ИИ-кодинг может давать сбои, особенно при работе с разным оборудованием. Но сам подход оказался достаточно сильным, чтобы перейти от простого движения манипулятора к обучению модели, способной брать и переносить предметы.
По словам робототехника Кена Голдберга из Калифорнийского университета в Беркли, написание кода при помощи ИИ может связать классическую инженерию, надёжную, но плохо приспосабливающуюся к новым задачам, с современными моделями, которые лучше обобщают опыт, но пока уступают по стабильности.
Подход, известный как «код как политика», описали ещё в научной работе 2022 года. С тех пор возможности моделей в программировании заметно выросли, а метод начали проверять в лабораториях. Команда Голдберга вместе с Nvidia, Carnegie Mellon University и Stanford создала тест CaP-X для оценки того, как кодовые модели справляются с роботами. По данным авторов, сильнейший результат в таких задачах показала Gemini, что может быть связано с упором Google DeepMind на мультимодальность и работу с физическим миром.
Исследовательская группа также разработала среду CaP-Gym, где ИИ-агенты управляют симулированными и реальными роботами, а также фреймворк CaP-Agent0. В ряде задач такой подход помог кодовым моделям обойти системы, специально обученные напрямую управлять движениями робота.
Спенсер Хуан из Nvidia, сын Дженсена Хуана, участвует в проектах и хакатонах, где инженеры пробуют управлять роботами через ИИ-кодирование. Цель таких работ проста: сделать робототехнику доступнее не только для узких специалистов, но и для людей, которые могут описать задачу текстом, голосом или показать нужное действие.
Таким образом, чем доступнее становятся инструменты для управления роботами, тем быстрее робототехника выходит из лабораторий и превращается в область, где решающим навыком становится не работа с железом, а умение точно описать задачу машине.
- Источник новости
- www.securitylab.ru