Предсказание движения тела музыканта по аудиозаписи музыкального произведения

0
194

Эли Шлизерман, Люсио Дери, Хайден Шен и Ира Кемельмахер-Шлизерман
(Facebook Inc., Стэнфордский университет, Вашингтонский университет) представили работу «Динамика звука в теле» в блоге Facebook Research со ссылками на материалы, сообщает портал Искусственный интеллект вокруг.

Когда пианисты играют музыкальную пьесу на фортепиано, их тело реагирует на музыку. Их пальцы нажимают клавиши фортепиано для создания музыки. Они двигают руками, чтобы играть на разных октавах.

В долгосрочной перспективе цель использования расширенного и искусственного интеллекта, чтобы помочь научить людей играть на музыкальных инструментах, в этом исследовании исследовалось, можно ли вычислить корреляцию между музыкальными сигналами и пальцами. Мы показываем, что это действительно можно предсказать. Насколько нам известно, в первый раз такая идея была протестирована.

Наша цель состояла в том, чтобы создать анимацию аватара, который двигает руками так, как это сделал бы пианист или скрипач, просто услышав звук. В нашем исследовании представлен метод, который вводит скрипку или фортепианную музыку, и выводит видео скелетных прогнозов, которые далее используются для анимации аватара, и мы успешно демонстрируем, что динамику естественного тела можно предсказать. Это исследование было представлено в нашей статье «Аудио-динамика тела» на конференции «Конференция по компьютерному видению и распознаванию образов» (CVPR) в 2018 году.

Задачи исследования

Предсказание движения тела из музыкального сигнала является очень сложной вычислительной проблемой. Чтобы справиться с этим, нам нужен хороший набор учебных видеороликов, нам нужно было точно предсказать позы тела в этих видео, и наш алгоритм должен был бы найти корреляцию между музыкой и телом.

Для такой цели нет данных о тренингах. Традиционно, современное предсказание естественного движения тела из видеопоследовательностей (не аудио) использовало последовательности захвата движения, созданные в лаборатории. Чтобы воспроизвести традиционный подход, нам нужно привести пианиста в лабораторию и заставить их играть несколько часов с датчиками, прикрепленными к их пальцам и суставам на теле. Это трудно выполнить и не легко обобщить.

Вместо этого мы использовали общедоступные видеоролики высококвалифицированных музыкантов, играющих в онлайн, что также могло потенциально позволить более высокую степень разнообразия данных. Мы собрали 3,6 часа скрипки и 4,4 часа фортепианного концерта «в доступном» видео из Интернета и обработали видео, распознав верхнюю часть тела и пальцы в каждом кадре каждого видео.

Затем мы построили нейронную сеть с долгой краткосрочной памятью (LSTM), которая изучает корреляцию между звуковыми характеристиками и ориентирами скелета тела. Прогнозируемые очки были применены к сфальсифицированному аватару, чтобы создать анимацию, с окончательным выходом в качестве аватара, который перемещается в соответствии с аудиовходом.

 

Обзор метода: (a) Наш метод получает в качестве входного аудиосигнала, например, фортепианную музыку, (b), которая подается в нашу сеть LSTM для прогнозирования точек движения тела, (c), которые, в свою очередь, используются для анимации аватара и шоу он играет входную музыку на фортепиано (аватар и фортепиано — это модели, а остальное — реальный фон квартиры).

Выходные скелеты являются многообещающими и производят интересную динамику тела. Чтобы получить лучшие результаты, просмотрите видео с включенным аудио:

Видео с сайта: research.fb.com

Потенциальное применение

Исследование было вдохновлено системой, которую мы создали в Вашингтонском университете, которая может найти корреляцию между речью человека и тем, как губы двигаются. Наша гипотеза о том, что жесты тела можно предсказать из аудиосигналов, показывает многообещающие первоначальные результаты. Мы полагаем, что корреляция между звуком и человеческим телом имеет потенциал для различных применений в VR / AR и распознавания.

Одним из потенциальных приложений является использование AR для обучения людей тому, как играть на музыкальных инструментах. Люди могут потенциально учиться у лучших пианистов в мире, потому что мы используем профессиональных пианистов для обучения видео. Когда опыт показан в AR, человек может ходить по аватару в 3D и приближаться к пальцам, чтобы увидеть, какие движения сделаны. Удивительно показать, как AI может помочь людям создавать музыку, захватывая, какие движения делают отличные выступления на реальных примерах.

Эта работа показала, что потенциальный AR должен изменить способ обучения новым возможностям. Мы рады показать начало потенциальных возможностей для музыки.

Источник: Facebook Research