Как нейронная сеть учит роботизированную руку манипуляции объектами

0
359

Мы тренировали человекоподобную роботизированную руку, чтобы манипулировать физическими объектами с беспрецедентной ловкостью, сообщает компания OpenAi в своем блоге.

Наша система, называемая Dactyl, полностью обучается в моделировании и передает свои знания в реальность, адаптируясь к физике реального мира, используя методы, над которыми мы работали в течение прошлого года. Dactyl учится с нуля, используя тот же алгоритм обучения и подкрепления общего назначения, что и OpenAI Five . Наши результаты показывают, что можно обучать агентов симуляции и решать им реальные задачи без физически точного моделирования мира.

Dactyl — это система для управления объектами с помощью Shadow Dexterous Hand. Мы помещаем в ладонь объект, такой как блок или призму, и просим Dactyl переместить его в другую ориентацию; например, вращая блок, чтобы положить новое лицо сверху. Сеть наблюдает только координаты кончиков пальцев и изображений с трех обычных RGB-камер.

Хотя первые гуманоидные руки были разработаны несколько десятилетий назад, использование их для эффективного управления объектами было давней проблемой в управлении роботами. В отличие от других проблем, таких как локомоция, прогресс по сравнению с манипуляциями с использованием традиционных подходов к робототехнике был медленным, и существующие методы по-прежнему ограничены в их способности манипулировать объектами в реальном мире.

Dactyl учится решать задачу переориентации объекта полностью в симуляции без какого-либо человеческого вклада. После этого этапа обучения алгоритм работает на реальном роботе без какой-либо тонкой настройки.

Dactyl был разработан, чтобы иметь возможность манипулировать произвольными объектами, а не только те, которые были специально изменены для поддержки отслеживания. Поэтому Dactyl использует обычные изображения RGB-камеры для оценки положения и ориентации объекта.

Сверточная нейронная сеть для Dactil

Мы тренируем оценку положения объекта с использованием сверточной нейронной сети

Нейронная сеть берет видеопотоки из трех камер, расположенных вокруг руки робота, и выводит оценочное положение и ориентацию объекта. Мы используем несколько камер для устранения неоднозначностей и окклюзии. Мы снова используем рандомизацию домена для обучения этой сети только в симуляции с использованием платформы разработки игр Unity , которая может моделировать более широкий спектр визуальных явлений, чем Mujoco.

Объединив эти две независимые сети, управляющую сеть, которая переориентирует объект с учетом своей позы и сети видения, которая отображает изображения с камер на позу объекта, Dactyl может манипулировать объектом, видя его.

Появление поведения

При развертывании нашей системы мы заметили, что Dactyl использует богатый набор ручных стратегий ловкой манипуляций для решения этой задачи. Эти стратегии обычно используются людьми. Однако мы не учим их в нашей системе явно; все поведения обнаруживаются автономно.

Dactyl

Мы заметили, что для точных захватов, таких как захват Tip Pinch, Dactyl использует большой палец и мизинец. Люди обычно используют большой палец и указательный или средний палец. Тем не менее, маленький палец руки робота более гибкий из-за дополнительной степени свободы , что может объяснить, почему Dactyl предпочитает его. Это означает, что Dactyl может заново обнаруживать захваты, обнаруженные у людей, но приспосабливать их, чтобы лучше соответствовать ограничениям и способностям собственного тела.

Этот проект завершает полный цикл разработки ИИ, который OpenAI проводит в течение последних двух лет: мы разработали новый алгоритм обучения, масштабировали его в массовом порядке для решения жестких имитируемых задач, а затем применили полученную систему к реальному миру. Повторение этого цикла в возрастающем масштабе является основным направлением, которое мы стремимся увеличить возможности современных систем ИИ для безопасного общего искусственного интеллекта.