Исследования машинного обучения в акустике могут открыть мультимодальную метавселенную

От

02.11.2022

Исследователи из Массачусетского технологического института и лаборатории искусственного интеллекта IBM Watson создали модель машинного обучения, чтобы предсказать, что слушатель услышит в различных местах трехмерного пространства.

Исследователи сначала использовали модель машинного обучения, чтобы понять, как любой звук в комнате будет распространяться в пространстве, создавая трехмерную картину комнаты так же, как люди используют звук для понимания своего окружения.

В статье, написанной в соавторстве с Йилуном Ду, аспирантом Массачусетского технологического института на факультете электротехники и компьютерных наук (EECS), исследователи показывают, как методы, подобные визуальному 3D-моделированию, могут быть применены к акустике.

Но они также боролись с элементами, в которых расходятся звук и свет. Например, изменение местоположения слушателя в комнате может создать совершенно другое впечатление от звука из-за препятствий, формы комнаты и характера звука, что затрудняет прогнозирование результата.

Чтобы преодолеть эту проблему, исследователи встроили в свои модели особенности акустики. Во-первых, источник звука и слушатель могут поменяться местами без изменения того, что слышит слушатель, при прочих равных условиях. Звук также особенно зависит от местных особенностей, таких как препятствия на пути слушателя или звука.

«Большинство исследователей до сих пор фокусировались только на моделировании зрения. Но, как люди, у нас мультимодальное восприятие. Важно не только зрение, но и звук. Я думаю, что эта работа открывает захватывающее направление исследований по лучшему использованию звука для моделирования мира, — сказал Ду.

Используя этот подход, полученная модель нейронного акустического поля (NAF) смогла случайным образом выбрать точки на этой сетке, чтобы изучить особенности в определенных местах. Например, близость к дверному проему сильно влияет на то, что слышит этот слушатель, по сравнению с другими геометрическими элементами, находящимися дальше на другой стороне комнаты.

Затем модель смогла предсказать, что слушатель может услышать от определенного акустического стимула, основываясь на их относительном расположении в комнате.

«Моделируя акустическое распространение в сцене как линейную неизменную во времени систему, NAF учатся непрерывно сопоставлять все пары местоположений излучателя и слушателя с функцией нейронного импульсного отклика, которую затем можно применять к произвольным звукам», — говорится в документе. [PDF]. «Мы демонстрируем, что непрерывный характер NAF позволяет нам отображать пространственную акустику для слушателя в произвольном месте и может предсказывать распространение звука в новых местах».

Чуанг Ган, главный научный сотрудник лаборатории искусственного интеллекта Watson AI Lab MIT-IBM, который также работал над проектом, сказал: «Эта новая техника может открыть новые возможности для создания мультимодального иммерсивного опыта в приложении метавселенной».

Мы не все понимаем Рег читатели будут в восторге от приведенного выше варианта использования. ®

Исследования машинного обучения в акустике могут открыть мультимодальную метавселенную

ОСТАВЬТЕ ОТВЕТ Отменить ответ

Workday требует отклонения заявлений о приеме на работу с расовой предвзятостью

ЭТО МОЖЕТ БЫТЬ ИНТЕРЕСНОЕЩЕ ОТ АВТОРА

Freeing developers from GenAI deployment nightmares

Nvidia unveils 288 GB Blackwell Ultra GPUs

Огромное количество данных подталкивает финансовые службы к более глубокому внедрению ИИ –

ОСТАВЬТЕ ОТВЕТ Отменить ответ

Workday требует отклонения заявлений о приеме на работу с расовой предвзятостью

ЭТО МОЖЕТ БЫТЬ ИНТЕРЕСНО ЕЩЕ ОТ АВТОРА