Обучение навигации в городах без карты с помощью нейронной сети

0
175

Как вы научились ориентироваться в окрестностях своего детства, пойти в дом друга, в свою школу или в продуктовый магазин? Наверное, без карты и просто помню визуальный облик улиц и поворачиваю по пути.

По мере того, как вы постепенно изучали свой район, вы становились более уверенными, овладели своим местонахождением и узнали новые и все более сложные пути. Возможно, вы потеряли немного времени, но снова нашли свой путь благодаря достопримечательностям или, возможно, даже посмотрели на солнце для импровизированного компаса.

Навигация — важная когнитивная задача, которая позволяет людям и животным перемещаться без карт на большие расстояния в сложном мире. Такая дальняя навигация может одновременно поддерживать самолокализацию («Я здесь») и представление цели («Я иду туда»).

В разделе «Обучение навигации по городам без карты» мы представляем интерактивную навигационную среду, в которой используются фотографии от первого лица из Google Street View и имитируем эту среду для обучения AI (Artificial Intelligence). В стандартном исполнении с изображениями Street View лица и номерные знаки были размыты и неузнаваемы. Мы создаем искусственный агент на основе нейронной сети, который учится перемещаться по нескольким городам с помощью визуальной информации (в пикселях от изображения Street View). Обратите внимание, что это исследование касается навигации в целом, а не вождения; мы не использовали информацию о дорожном движении и не пытались моделировать управление транспортным средством.

Агент вознаграждается, когда он достигает целевого адресата (задается, например, как пара координат широты и долготы), как курьер, которому поручено бесконечное множество поставок, но без карты. Со временем агент ИИ учится пересекать целые города таким образом. Мы также демонстрируем, что наш агент может изучить задачу в нескольких городах, а затем решительно адаптироваться к новому городу.

Обучение навигации без построения карт

Мы отходим от традиционных подходов, которые полагаются на явное сопоставление и исследование (например, картограф, который пытается локализовать себя и одновременно отображать карту). Напротив, наш подход состоит в том, чтобы научиться ориентироваться как люди, которые когда-либо делали, без карт, локализации GPS или других вспомогательных средств, используя только визуальные наблюдения. Мы создаем агент нейронной сети, который вводит изображения, наблюдаемые из окружающей среды, и предсказывает следующее действие, которое он должен предпринять в этой среде. Мы обучаем его сквозным, используя глубокое обучение усилению, подобно недавней работе по обучению навигации в сложных 3D-лабиринтах и обучению подкрепления с неконтролируемыми вспомогательными задачами для игр. В отличие от тех исследований, которые проводились в малогабаритной моделируемой среде лабиринта, мы используем данные реального мира в масштабе города, включая сложные пересечения, пешеходные дорожки, туннели и разнообразную топологию в Лондоне, Париже и Нью-Йорке. Кроме того, подход, который мы используем, поддерживает обучение и оптимизацию, ориентированную на город, а также общее, переносимое навигационное поведение.

Модульная архитектура нейронной сети, которая может передавать в новые города

Нейронная сеть внутри нашего агента состоит из трех частей: 1) сверточной сети, которая может обрабатывать изображения и извлекать визуальные функции; 2) рекуррентную нейронную сеть, специфичную для локализации, которая неявно задана с запоминанием среды, а также изучение представления » здесь » (текущая позиция агента) и « там » (местоположение цели) и 3) локально-инвариантная повторяющаяся сеть, которая создает навигационную политику над действиями агента. Модуль, специфичный для локализации, предназначен для взаимозаменяемости и, как указывает его имя, уникален для каждого города, в котором находится агент, тогда как модуль видения и модуль поведения могут быть локально-инвариантными.

Как и в интерфейсе Google Street View, агент может вращаться на месте или, если это возможно, перейти к следующей панораме. В отличие от среды Google Maps и Street View, агент не видит маленькие стрелки, локальную или глобальную карту или знаменитый Pegman: ему нужно научиться отличать открытые дороги от тротуаров. Целевые пункты назначения могут находиться в километрах в реальном мире и требуют, чтобы агент прошел через сотни панорам, чтобы добраться до них.

Мы демонстрируем, что наш предложенный метод может обеспечить механизм передачи знаний в новые города. Как и у людей, когда наш агент посещает новый город, мы ожидаем, что ему придется изучать новый набор ориентиров, но не переучивать его визуальные представления или его поведение (например, масштабирование вперед по улицам или поворот на пересечениях улиц). Поэтому, используя архитектуру MultiCity, мы тренируемся сначала по нескольким городам, затем мы замораживаем как городскую сеть, так и визуальную сверточную сеть и только новый путь, специфичный для локации, в новом городе. Такой подход позволяет агенту приобретать новые знания, не забывая, что он уже узнал, подобно архитектуре прогрессивных нейронных сетей.

Источник: deepmind.com