Распознавание аудио-информации с видеопотока и её локализация

0
224

Визуальные и звуковые события чаще всего происходят одновременно: музыкант, выщипывающий гитарные струны и получившаяся мелодия; сотрясение стекла и сопровождающий его крах; рев мотоцикла, когда он разгоняется. Эти визуальные и звуковые сигналы являются параллельными, потому что они имеют общую причину. Понимание взаимосвязи между визуальными событиями и связанными с ними звуками — это фундаментальный способ понять окружающий нас мир.

Наша основная идея состоит в том, чтобы использовать ценный источник информации, содержащийся в самом видео: соответствие между визуальными и аудиопотоками, доступными благодаря их одновременному появлению в одном и том же видео, сообщает Искусственный интеллект вокруг со ссылкой на блог компании Google DeepMind.

Создавая задачу обучения аудиовизуальной корреспонденции, которая позволяет визуально и аудио сети совместно обучаться с нуля, мы демонстрируем, что:

  • сети могут изучать полезные семантические концепции;
  • эти две модальности могут использоваться для поиска друг друга (например, для ответа на вопрос: «Какой звук хорошо подходит этому изображению?»); а также
  • объект, издающий звук, может быть локализован.

Увидев и услышав много примеров того, как человек играет на скрипке и примеры лая собаки, мы редко или практически никогда не увидим игру скрипки, при этом слушая собачий лай и наоборот. Следовательно можно было сделать вывод, что такое скрипка и как выглядит и звучит собака. Этот подход, в частности, мотивируется тем, как ребенок может узнать о мире по мере развития их визуальных и звуковых особенностей.

Поиск различных семантических концепций как визуальном так и в аудиопотоке

Мы применяем обучение по аудиовизуальному потоку (AVC), простое задание двоичной классификации: учитывая примерный видеокадр и короткий аудиоклип, принимается решение, соответствуют ли они друг другу или нет.

Единственный способ решить эту задачу — научиться обнаруживать различные семантические концепции как в визуальном, так и в аудиопотоке. Для решения задачи AVC мы предлагаем следующую сетевую архитектуру.

Изображение и аудио подсети извлекают визуальные и звуковые вложения и за счет соответствия вычисляются как функция расстояния между двумя вложениями. Если встраивания подобны, считается, что (изображение, аудио) соответствуют.

Нейронная сеть по картинке подбирает 5 вариантов возможных звуков.

Нейронная сеть по звуку подбирает 5 вариантов возможных картинок, наиболее точно соответствующих аудио потоку.

Локализация объектов, которые издают звук

Чтобы локализовать звук на изображении, мы вычисляем оценки соответствия между вложением звука и сеткой дескрипторов изображения на уровне региона. Сеть обучается с использованием нескольких экземпляров — оценка соответствия уровня изображения вычисляется как максимальная карта соответствия:

Для соответствующих (изображений, аудио) пар метод побуждает по меньшей мере один регион реагировать высоко и, следовательно, локализовать объект. В приведенном ниже видео (левый — входной кадр, правый — выход локализации, средний — наложение), кадры обрабатываются полностью независимо — информация о движении не используется, и нет временного сглаживания:

Локализация также помогает распознавать несоответствие видео с аудио потоком

Для несоответствующих пар, когда видео не совпадает с аудио информацией, максимальный балл должен быть низким, таким образом делая всю карту оценки темной, указывая, что нет объекта, который делает входной звук:

Эти методы могут оказаться полезными в обучении с подкреплением, позволяя агентам использовать большое количество немаркированной сенсорной информации. Наша работа может также иметь последствия для решения других мультимодальных проблем, помимо аудиовизуальных задач в будущем.