Визуализация нейронной сетью и рендеринг

0
1019

Компания DeepMind в своём блоге представила визуализацию нейронной сетью сообщает портал Искусственный интеллект вокруг Ai360.

Существует нечто большее, чем кажется на первый взгляд, когда речь заходит о том, как мы понимаем визуальную сцену: наши мозги опираются на предварительное знание на разум и делают выводы, выходящие далеко за рамки света, поражающего наши сетчатки. Например, при первом входе в комнату вы сразу узнаете предметы, которые он содержит, и где они расположены. Если вы видите три ножки стола, вы увидите, что есть, вероятно, четвертая нога с той же формой и цветом, скрытым от вида. Даже если вы не видите все в комнате, вы, вероятно, сможете набросать макет или представить себе, как это выглядит с другой точки зрения.

Эти визуальные и познавательные задачи кажутся легкими для людей, но они представляют собой серьезную проблему для наших искусственных систем. Сегодня современные системы визуального распознавания обучаются с использованием больших наборов данных аннотированных изображений, созданных людьми. Приобретение этих данных является дорогостоящим и трудоемким процессом, требующим от людей маркировать каждый аспект каждого объекта в каждой сцене в наборе данных. В результате часто фиксируется только небольшое подмножество общего содержания сцены, что ограничивает искусственные системы зрения, обученные этим данным. Когда мы разрабатываем более сложные машины, которые работают в реальном мире, мы хотим, чтобы они полностью понимали их окружение: где находится ближайшая поверхность? Каким материалом является диван? Какой источник света создает все тени? Где может быть переключатель света?

Научиться видеть

В этой работе, опубликованной в Science ( Open Access version ), мы представляем Generative Query Network (GQN), основу, в которой машины учатся воспринимать свое окружение, обучая только данные, полученные сами по себе, когда они движутся вокруг сцен. GQN, как младенцы и животные, учится, пытаясь понять свои наблюдения окружающего мира. При этом GQN узнает о правдоподобных сценах и их геометрических свойствах, без какой-либо человеческой маркировки содержимого сцен.

Модель GQN состоит из двух частей: сети представления и сети генерации. Сеть представления берет наблюдения оператора как свой вход и создает представление (вектор), которое описывает основную сцену. Затем сеть генерации предсказывает («воображает») сцену из ранее ненаблюдаемой точки зрения.

Объяснение GQN

Сеть представления не знает, какие точки зрения запрашивают сеть генерации для прогнозирования, поэтому она должна найти эффективный способ описания истинного расположения сцены как можно точнее. Он делает это, захватывая наиболее важные элементы, такие как позиции объектов, цвета и макет комнаты, в кратком распределенном представлении. Во время обучения генератор узнает о типичных объектах, функциях, отношениях и закономерностях в окружающей среде. Этот общий набор «понятий» позволяет сети представления описать сцену очень сжатым, абстрактным образом, оставив ее в сети генерации, чтобы заполнить детали там, где это необходимо. Например,

Мы провели контролируемые эксперименты в GQN в коллекции созданных процедур в среде 3D моделирования, содержащей несколько объектов в случайных позициях, цветах, фигурах и текстурах, со случайными источниками света и тяжелой окклюзией. После обучения в этих средах мы использовали сеть представления GQN для формирования представлений о новых, ранее незаметных сценах. В наших экспериментах мы показали, что GQN обладает несколькими важными свойствами:

Сеть генерации GQN может «представить» ранее незаметные сцены с новых точек зрения с замечательной точностью. При предоставлении представления сцены и новых точек обзора камеры он генерирует четкие изображения без какой-либо предварительной спецификации законов перспективы, окклюзии или освещения. Таким образом, сеть генерации является приблизительным средством визуализации , которое извлекается из данных:

Сеть представления GQN может научиться подсчитывать, локализовать и классифицировать объекты без каких-либо меток уровня объекта. Несмотря на то, что его представление может быть очень маленьким, прогнозы GQN в точках запроса очень точны и почти неотличимы от истины. Это означает, что сеть представления воспринимается точно, например, для определения точной конфигурации блоков, которые составляют следующие сцены.

GQN может представлять, измерять и уменьшать неопределенность. Он способен учитывать неопределенность в своих убеждениях относительно сцены, даже когда ее содержимое не полностью видимо, и может сочетать несколько частичных представлений сцены для формирования целостного целого. Об этом свидетельствуют предсказания от первого лица и сверху вниз на рисунке ниже. Модель выражает свою неопределенность благодаря изменчивости ее прогнозов, которая постепенно уменьшается по мере ее перемещения по лабиринтам (серые конусы указывают места наблюдения, желтый конус указывает местоположение запроса): (см.видео выше)

Представление GQN обеспечивает надежное, эффективное для данных обучение усилению. При предоставлении компактных представлений GQN современные высокоуровневые обучающие агенты учатся выполнять задачи более эффективным по сравнению с безмодельными базовыми агентами, как показано на рисунке ниже. Этим агентам информация, закодированная в сети генерации, может рассматриваться как «врожденное» знание среды: (см.видео выше)

Используя GQN, мы наблюдаем существенно более эффективное управление политикой в ​​области данных, получая производительность на уровне конвергенции с примерно в 4 раза меньшим количеством взаимодействий, чем стандартный метод с использованием исходных пикселей.
GQN основывается на большой литературе недавней связанной работы в области многомерной геометрии, генеративного моделирования, неконтролируемого обучения и интеллектуального обучения, которые мы обсуждаем здесь , в научной статье и версии открытого доступа . Это иллюстрирует новый способ изучения компактных, обоснованных представлений о физических сценах. Крайне важно, что предлагаемый подход не требует специфичной для домена инженерной или долговременной маркировки содержимого сцен, позволяя использовать ту же модель в различных средах. Он также изучает мощный нейронный рендерер, который способен создавать точные изображения сцен с новых точек зрения.

Наш метод по-прежнему имеет множество ограничений по сравнению с более традиционными методами компьютерного зрения, и в настоящее время он только обучен работе над синтетическими сценами. Однако по мере того, как новые источники данных становятся доступными, и в наших аппаратных возможностях достигнуты успехи, мы ожидаем, что мы сможем исследовать применение структуры GQN для изображений с высоким разрешением реальных сцен. В будущей работе также будет важно изучить применение GQN для более широких аспектов понимания сцены, например, путем опроса в пространстве и времени, чтобы изучить здравое понятие о физике и движении, а также приложения в виртуальной и дополненной реальности ,

Несмотря на то, что еще предстоит сделать гораздо больше исследований, прежде чем наш подход будет готов к развертыванию на практике, мы считаем, что эта работа является значительным шагом к полностью автономному пониманию сцены.

Источник: deepmind.com